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مقدمة المترجم 

يقدم هذا الكتاب دروساً تعليمية عديدةفي مجال التعلم العميق ويتميز الكتاب ببساطة لغته 
وسهولة فهمها من قبل القارئ مع شرح مميز مدعم بالأمثلة والتمارينفي نهاية كل فصل. 

عند انتهائي من قراءه هذا الكتاب» احببت ان اترجم هذا الكتاب وبعد التواصل مع المؤلف 
الاستاذ ميلاد وزان لم يبد مانعا من ترجمته الى العربية. ولله الحمد ترجمت الكتاب الى العربية 

لقد اخترت كتاب "یادگیری عمیق" للأستاذ ميلاد وزان لما رأيته من جودة هذا الکتاب» 
بترجمة ذات جودة عالیة ومع هذا يبقى عملاً بشرياً يحتمل النقص. فاذاكان لديك أي ملاحظات 
حول هذا الکتاب. فلا تتردد بمراسلتنا عبر بريدنا الالكتروني alaa. taima@qu.edu.ig‏ . 


نأمل ان يساعد هذا الکتاب کل من يريد ان يدخلني مجال التعلم العمیق ومساعدة القاری 
العربي على تعلم هذا المجال. اسأل الله التوفيقفي هذا العمل لأثراء المحتوی العربي الذي یفتقر 
أشد الافتقار إلى محتوى جيد ورصينني مجال الذكاء الاصطناعي وتعلم IY‏ والتعلم العميق. 
ونرجو لك الاستمتاع مع التعلم العميق ولا تنسونا من صالح الدعاء. 


د. علاء طعيمة 
گلیة علوم الحاسوب وتكنولوجيا المعلومات 
جامعة القادسية 


العراق 


۰ عا‎ eo eo 
مقدمة المولف‎ 
التعلم العميق هو تقنية جديدة قوية تزداد شعبيتها يومًا بعد يومفي مختلف المجالات. لذلك.‎ 
من المهم جدا أن نتعلمها. هذا الکتاب مخصص للمبتدئین الذين لیس لديهم معرفة بالتعلم‎ 
العميق لإعداد القراء لدورة فائقة السرعةفي التعلم العميق. توقعنا الوحيد من القراء هو أن لديهم‎ 
بالفعل مهارات البرمجة الأساسيةفي بايثون.‎ 


يهدف هذا الدليل المختصر إلى تزويدك كمبتدئ بفهم للموضوع. بمافي ذلك الخبرة العملية 
الملموسةفي تطویر النموذج. إذاكنت بالفعل فوق مستوى المبتدئين» فهذا الكتاب ليس لك! 


ميلاد وزان 


کاشمر-2022 
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التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 
التعلم العميق هو مجموعة فرعية من التعلم الآلي الذي يركز على استخدام الشبكات العصبية 
لحل المشكلات المعقدة. الیوم. أصبح أكثر شيوعًا بفضل التطوراتني البرامج والأجهزة التي 
تسمح لنا بجمع ومعالجة کمیات كبيرة من البيانات. OY‏ الشبكات العصبية العميقة توفر كميات 
كبيرة من البيانات للأداء الجيد الذي نتوقعه. وبالتالی تتطلب أجهزة قوية لمعالجة هذه الكمية 
الكبيرة من البيانات. 


ماهو التعلم العميق؟ 
الذكاء الاصطناعي هوني الأساس محاكاة للبشر وسلوكياتهم العقلية بواسطة برنامج كمبيوتر يمكنه 
القيام بأشياء تتطلب عادة ذكاء بشري. بعبارات آبسط. نظام يمكنه محاكاة السلوك البشري. تشمل 
هذه السلوكيات حل المشكلات والتعلم والتخطيط التي يتم تحقيقها من خلال تحليل البيانات 
وتحديد الأنماط بداخلها من أجل تكرار تلك السلوكيات. 

الكود أو التقنية أو الخوارزمية أو أي نظام يمكنه محاكاة فئة الفهم المعرفي التي تظهرفي حد 
ذاتها أوفي إنجازاته هو الذكاء الاصطناعي. يتضمن ذلك التعلم الالي حيث يمكن للالات التعلم 
من خلال الخبرة واكتساب المهارات دون تدخل بشري. ومن ثم فان الذكاء الاصطناعي هو KJ‏ 
بناء التعلم الالي.في الواقع. يعد التعلم الالي مجموعة فرعية رئيسية من الذكاء الاصطناعي ويمكنه 
تمكين الآلات من استخدام الأساليب الإحصائية لجعل تجاربهم أكثر جودة ودقة. يسمح هذا 
لأجهزة الکمبیوتر والالات بتنفيذ الأوامر Aly‏ على بياناتهم وتعلمهم. تم تصميم هذه البرامج أو 
الخوارزميات لمعرفة المزيد بمرور الوقت والتكيف مع البيانات الجديدة. 

الفكرة الرئيسية لاختراع التعلم الالي القائم على العينة هو أن عملية التفکیرفی المشكلة أصبحت 
ممكنة من خلال الإشارة إلى أمثلة مماثلة سابقة. تسمى الأمثلة السابقة المستخدمة لبناء القدرات 
آمثلة تعلیمیة وتسمى عملية القيام بذلك التعلم.في أنظمة الكمبيوترء هناك خبرةفي شكل ELSI‏ 
والمهمة الرئيسية للتعلم الالي هي تطوير خوارزميات التعلم التي تقوم بنمذجة البيانات. من خلال 
تغذية البيانات التجريبية إلى خوارزمية التعلم الالي. نحصل على نموذج يمكنه عمل تنبؤاتفي 
الملاحظات الجديدة. 

التعلم العميق هو Call‏ مجموعة فرعية من الذكاء الاصطناعي والتعلم SW‏ حيث تكتسب 
الشبكات العصبية الاصطناعية» والخوارزميات المستوحاة من الدماغ البشري» القدرة على التعلم 
من كميات كبيرة من البيانات. تقوم خوارزمية التعلم العميق. على غرار الطريقة التي نتعلم بها من 
التجارب والأمثلة بعمل شيء واحد مرارًا LOSS‏ وتغييره TB‏ كل مرة لتحسين النتيجة. من 
خلال القيام بذلك. فإنه يساعد أجهزة الكمبيوترني العثور على خصائص من البيانات والتكيف 
مع التغييرات. يساعد التعرض المتكرر لمجموعات البيانات الآلات على فهم الاختلافات 


الفصل الاول: مقدمة في التعلم العميق 


ومناطق البيانات والوصول إلى نتيجة موثوقة:في أبسط آشکاله. يمكن اعتبار التعلم العميق وسيلة 
لأتمتة التحليلات التنبؤية .(predictive analytics)‏ 


التعلم العميق عبارة yc‏ مجموعة من الخوارزميات GUI‏ "تتعلم من خلال الطبقات". 


بمعنى آخر, يتضمن التعلم من خلال الطبقات التى تمكن الخوارزمية من إنشاء تسلسل 


هرمى للمفاهيم المعقدة من مفاهيم أبسط. 

لفهم التعلم العميق بشکل أفضل» تخيل طفلا صغيرًا يتعلم ماهية القطة. يتعلم الطفل الصغير 
ما هي القطة وما هي القطة من خلال الإشارة إلى الأشیاء وقول كلمة "قطة". يقول الاباء "نعم 
إنها قطة" أو OY"‏ إنها ليست قطة". مع استمرار الطفل الدارجفي الاشارة إلى الأشياء فإنه يصبح 
أكثر Ley‏ بالخصائص التي تتمتع بها جميع القطط؛ ما الذي يفعله الطفل دون أن يعرف ذلك. 
هذه هي الطريقة التي يخلق بها تجریدا معقدا (مفهوم القطة) من خلال إنشاء تسلسل هرمي 
يكون فيه كل مستوى من التجريد مع المعرفة المكتسبة من الطبقة السابقة للتسلسل uro!‏ 
لجعل هذا التجريد المعقد بسيطًا وواضحًا. 


نشأة التعلم العميق؟ 

منذ بداية عصر الکمبیوتر كان الباحثون يضعون نظريات حول ذكاء IYI‏ ویحلمون بامتلاك أجهزة 
كمبيوتر ذكية يمكنها تعلم وفهم الحلول للمشكلات المعقدة.في الخمسينيات والستینیات من 
القرن الماضي. ظهرت أولى الشبكات العصبية. بمافي ذلك خوارزمية بيرسبترون لتصنیف الصور. 
ومع ذلك. cats‏ هذه الحالات المبكرة بسيطة للغاية ولا يمكن أن تكون شائعة على نطاق واسع. 
عادت الشبکات العصبية إلى الظهورفي الثمانینیات عندما طور الباحثون Bb‏ لاعادة إرسال 
المعاملات لبناء وتدریب شبکات عصبية متعددة المستویات. 

مع التطورات التي حدثت‌في العقد الأول من القرن الحادي والعشرین. ظهرت تقنیات تجعل من 
الممکن زيادة طبقات الشبکات العصبية. آدت هذه الشبکات متعددة الطبقات إلى تسمية مجال 
آبحاث الذکاء الاصطناعي "التعلم العمیق" OY‏ الخوارزمیات تعالج البيانات‌في طبقات متعددة 
للاستجابة. 

في عام 2012ء بدأت الشبكات العصبية العميقةني الأداء بشکل أفضل من خوارزميات التصنيف 
التقلیدیة بمافي ذلك خوارزميات التعلم الآلي. ترجع هذه الزيادةني الأداء إلى حد كبير إلى زيادة 
أداء معالجات الكمبيوتر (GPUS)‏ والكمية الكبيرة من البيانات المتوفرة OW‏ أدت الرقمنة 
السريعة إلى إنتاج بيانات واسعة النطاق. وهي الأكسجين المستخدمنی تدریس نماذج التعلم 
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العميق. منذ ذلك الحينءفي كل cele‏ استمر التعلم العمیقنی التحسن وأصبح أفضل نهج لحل 
المشكلاتفي العديد من المجالات المختلفة. 


aay‏ هذا الارتفاع فى الشعبية واستخدام التعلم العميق إلى aa‏ كبير إلى التقدم فى 


الأجهزة ومجموعات البيانات الموسومة الضخمة GUI‏ تسمح لنماذج التعلم العميق 
بالتعافى ac pw‏ بمرور الوقت. 


سبب شعبية التعلم العميق؟ 
تتجه صناعة البرمجيات اليوم نحو الذكاء الالي» والتعلم SN‏ هو الذي مهد الطريق للالات الذكية. 
ببساطةء التعلم الالي عبارة عن مجموعة من الخوارزميات التي تحلل البیانات. وتتعلم منھاء ثم 
تطبق ما تعلموه لاتخاذ قرارات ذكية. الشيء الذي يميز خوارزميات التعلم الآلي التقليدية هو 
ُنھاء بغض النظر عن مدى تعقيدهاء لا تزال شبيهة بالآلة. بمعنى آخرء يحتاجون إلى خبراءفي هذا 
المجال للتعلم. بالنسبة لخبراء الذكاء الاصطناعي. هذه هي النقطة التي يعد بها التعلم العميق. 
وذلك ON‏ الشبكات العصبية العميقة تتعلم ميزات عالية المستوى من البيانات بشكل تدريجي 
(هرميًا) دون الحاجة إلى تدخل بشري. هذا يلغي الحاجة إلى خبراء المجال واستخراج الميزات 
يدويًا. اختيار السمات لمجموعة البيانات له تأثير كبير على نجاح نموذج التعلم Be JM‏ حين أن 
استخراج السمات يدويًا سيكون عملية معقدة وتستغرق وقتا طويلاً. 

الیوم. بالإضافة إلى الشركات والموسسات. حتى الأشخاص في الجوانب التكنولوجية يميلون 
إلى التعلم العمیق وعدد هذه الشركات والأفراد الذين يستخدمون التعلم العميق يتزايد يومًا بعد 
يوم. لفهم هذا السبب. يجب على المرء أن ينظر إلى الفوائد التي يمكن اكتسابها باستخدام نهج 
التعلم العميق. يمكن تلخيص الفوائد الرئيسية لاستخدام هذه التقنية على النحو التالي: 

* لا حاجة لهندسة الميزات: في التعلم الالي تعد هندسة الميزات مهمة أساسية وهامة. 
هذا لأنه يحسن الدقة وفى بعض OLA‏ قد تتطلب هذه العملية معرفة المجال حول 
مشكلة معينة. تتمثل إحدى آکبر مزايا استخدام نهج التعلم العميق في قدرته على أداء 
هندسة الميزات GUE‏ في هذا النهج. تقوم الخوارزمية بمسح البيانات لتحديد 
الميزات ذات الصلة ثم دمجها لتسريع التعلم» دون إخبارها صراحة. تساعد هذه 
الإمكانية علماء البيانات على توفير قدر کبیر من الوقت ثم تحقيق نتائج أفضل. 
الاستخدام الاقصى للبيانات غير المهيكلة: تظهر الأبحاث أن نسبة كبيرة من بيانات 
المؤسسة غير المهيكلة . OY‏ معظمها في تنسيقات مختلفة مثل الصور والنصوص وما 
إلى ذلك. بالنسبة لمعظم خوارزميات التعلم الآليء يعد تحليل البيانات غير المهيكلة 
al‏ صعبًا. هذا هو المكان الذي يكون فيه التعلم العميق مفیدا. GY‏ يمكنك استخدام 
تنسيقات بيانات مختلفة لتعليم خوارزميات التعلم العميق وأيضًا اكتساب رؤى تتعلق 
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بالغرض من التدريب. على سبيل المثال . يمكنك استخدام خوارزميات التعلم العميق 
لاكتشاف العلاقات بين تحليل الصناعة ودردشة الوسائط الاجتماعية والمزيد للتنبو 
بأسعار الأسهم المستقبلية للمؤسسة. 

* تقديم نتائج عالية الجودة: یصاب البشر بالجوع أو التعب وأحيانًا يرتكبون أخطاء. في 
المقابل. ليس هذا هو الحال عندما يتعلق الأمر بالشبكات العصبية. يمكن لنموذج 
التعلم العميق المدرب بشكل صحيح أن ينجز آلاف المهام الروتينية والمتكررة في فترة 
زمنیة قصيرة نسبيًا مقارنة بما يحتاجه الانسان. بالإضافة إلى ذلك . لن تنخفض جودة 
العمل آبدا . ما لم تحتوي بيانات التدريب على بيانات أولية لا تشير إلى مشكلة تريد 
حلها. 

* التعلم الانتقالي: يحتوي التعلم العميق على العديد من النماذج المدربة مسبقاً بأوزان 
وتحيزات ثابتة » وبعضها ممتاز في التنبؤ. 

* دقة عالية في النتائج: عندما يتم تعليم التعلم العميق بكميات هائلة من البيانات» يمكن 
أن يكون cis‏ للغاية مقارنة بخوارزميات التعلم الآلي التقليدية. 

بالنظر إلى المزايا المذكورة أعلاه والاستفادة بشكل أكبر من نهج التعلم العمیق» يمكن 

القول إن التأثير الكبير للتعلم العميق على التقنيات المتقدمة المختلفة مثل إنترنت الأشياء 

في المستقبل واضح. لقد قطع التعلم العميق شوطًا طویلاً وأصبح سريعًا تقنية حيوية يتم 


ومع ذلك. تجدر الإشارة إلى أن التعلم العميق قد لا یکون أيضا الخيار الأفضل استنادًا إلى 
البيانات. على سبيل المثال, إذا كانت مجموعة البيانات صغیرۂ, فقد تؤدی أحيانًا نماذج 


تعلم الآلة الخطية الأبسط إلى AIL‏ أكثر دقة. ومع ذلك. يجادل بعض خبراء التعلم الآلى 
بان شبكة عصبية عميقه 0213 التدريب لا يزال بإمكانها العمل بشكل u‏ مع كميات 
صغيرة من البيانات. 


كيف يعمل التعلم العميق؟ 

تكتسب نماذج التعلم العميق القدرة على التعلم من خلال التحليل المستمر للبيانات واكتشاف 
الهياكل المعقدةفي البيانات. تتحقق عملية التعلم من خلال بناء نماذج حسابية تسمى الشبكات 
العصبية المستوحاة من بنية الدماغ.في صميم هذا التعلم يوجد نهج متكرر لتدريب الآلات لتقليد 
الذكاء البشري. تقوم الشبكة العصبية الاصطناعية بتنفيذ هذه الطريقة التكرارية من خلال عدة 
مستويات هرمية» حيث تكون قادرة على حل مفاهيم أكثر تعقیدا للمشكلة من خلال الانتقال إلى 
طبقات المستوى التالي. تساعد المستويات الأساسية الآلات على تعلم معلومات بسيطة. كلما 
انتقلت إلى كل مستوى جدید. تجمع الأجهزة المزيد من المعلومات وتدمجها مع ما تعلمتهفي 
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المستوى الأخير.في نهاية العملية. يجمع النظام جزءًا أخيرًا من المعلومات يمثل إدخالا مختلطًا. 
تمر هذه المعلومات بعدة تسلسلات هرمية وتشبه التفكير المنطقي المعقد. 

Les‏ نقسمها أكثر بمساعدة مثال. ضع‌ني اعتبارك مساعدا Gye‏ مثل Alexa‏ أو Siri‏ لترى 
كيف يستخدم التعلم العميق لتجارب المحادثة الطبيعية.في المراحل الأولى من الشبكة العصبیق 
عندما يتغذى المساعد الصوتي على البیانات. فإنه يحاول تحديد الأصوات والأشياء الأخرى.في 
المستويات العلياء يلتقط iua‏ المفردات ويضيف النتائج من المستويات السابقة.في 
المستويات التالية. يحلل الإعلانات (الأوامر) ويجمع کل نتائجها. بالنسبة لأعلى مستوى من 
الهيكل الهرمي. یتم تدريب المساعد الصوتي بدرجة كافية ليكون قادرًا على تحليل الحوار وتقديم 
المدخلات Fly‏ على تلك المدخلات. 


فى التعلم العمیق: لا نحتاج إلى برمجة صريحة لكل شىء. يمكنهم التعرف تلقائيًا على 
تمثیلات البیانات Jio‏ الصور أو الفيديو أو النص, دون تقديم قواعد gy‏ يمكن أن 


تتعلم (LUI‏ شديدة المرونة الخاصو بهم مباشرة من البيانات PL!‏ ويمكن أن تزيد 
من الأداء إذا تم توفير المزيد من البيانات. 


عيوب وتحديات التعلم العميق 

على الرغم من تزايد أهمية التعلم العميق وتطوراته. إلا أن هناك بعض الجوانب أو التحديات 
السلبية التي يجب معالجتها لتطوير نموذج التعلم العميق. أكبر قيود على نماذج التعلم العميق 
هو أنها تتعلم من خلال الملاحظة. هذا يعني أنهم يعرفون فقط ما هو موجودفي البيانات التي 
يقومون بتعليمها وأنهم جيدون فقطفي التعيين بین المدخلات والمخرجات. بمعنى آخر لا 
يعرفون Éi‏ عن سياق البيانات التي يستخدمونها.في الواقع» تشير كلمة "عميق"في التعلم العميق 
إلى مرجع هندسة التكنولوجيا وعدد الطبقات المخفيةفي هيكلها أكثر من كونها تشير إلى فهم 
عميق لما يتم القيام به. 

تعد نماذج التعلم العميق واحدة من أسوأ نماذج البيانات‌في عالم التعلم الآلي. إنهم بحاجة إلى 
قدر هائل من البيانات لتحقيق الأداء المطلوب وخدمتنا بالقدر التي نتوقعها منهم. ومع ذلك. فإن 
الحصول على هذا القدر من البيانات ليس بالأمر السهل دائمًا. بالاضافة إلى ذلك.ني حين أنه 
یمکننا الحصول على كميات كبيرة من البيانات حول موضوع ما إلا أنه غالبًا لا يتم تصنيفهاء 
لذلك لا یمکننا استخدامها لتعليم أي نوع من خوارزمية التعلم الخاضع للإشراف. باختصار, لا 
تتعلم هذه النماذج بطريقة قابلة للتعميم إذا كان لدی المستخدم كمية صغيرة من البيانات. يمكن 
أن يعمل التعلم العميق بشكل أفضل عند توفر كمية كبيرة من البيانات عالية الجودة. مع زيادة 
البيانات المتاحة. يزداد أداء نظام التعلم العميق. 
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عندما لا يتم إدخال بيانات ذات جودة فی النظام. يمكن أن یفشل نظام التعلم العميق 
فشلاً ذريعاً. 


تعد قضية التحيزات (biases)‏ أيضًا مشكلة رئيسية لنماذج التعلم العميق. إذا تم تدريب 
نموذج على بيانات متحيزة, فإن النموذج يعيد إنتاج تلك التحيزاتفي تنبواته. 

على الرغم من أن نماذج التعلم العميق فعالة LEU‏ ويمكنها صياغة حل مناسب لمشکلة معينة 
بعد التدريب مع البیانات. إلا أنها غير قادرة على القيام بذلك لحل مشكلة مماثلة وتحتاج إلى 
إعادة التدریب. لتوضيح ذلك ضعفي اعتبارك خوارزمية التعلم العميق التي تتعلم أن الحافلات 
المدرسية slo‏ ما تکون صفراء ولكن فجأة تتحول الحافلات المدرسية إلى اللون الأزرق. ومن 
ثم يجب إعادة تدريبها. على العكس من ذلك. ليس لدی الطفل البالغ من العمر خمس سنوات 
GUS‏ التعرف على السيارة كحافلة مدرسية زرقاء. بالإضافة إلى ذلك. فهي CA‏ لا تعمل بشكل 
جيدفي المواقف التي قد تكون مختلفة قلیلاً عن البيئة التي مارسوا فيها. على سبيل المثالءنی 
DeepMind‏ دربت Google‏ على هزيمة 49 لعبة Atari‏ ومع ذلك.ني كل مرة يهزم فيها 
النظام مباراة واحدق يجب dole]‏ تدريبه لهزيمة المباراة التالية. يقودنا هذا إلى تحديد آخر للتعلم 
العمیق. وهو Gal‏ حين أن النموذج قد يكون جیدا للغايةفي تعيين المدخلات إلى المخرجات. 
فقد لا يكون c‏ فهم سياق البيانات التي يديرونها. 

يتعلم نمط التعلم العميق أو بشكل عام خوارزميات التعلم الالي الحالية بشكل منفصل: Giy‏ 
لمجموعة بيانات التدریب. تعمل خوارزمية التعلم SY‏ على مجموعة البيانات لانتاج نموذج 
ولا Jis‏ أي جهد للحفاظ على المعرفة المكتسبة واستخدامهاني تفعيل التعلمنی المستقبل. على 
الرغم من أن نموذج التعلم المنفصل هذا كان ناجحا للغاية. إلا أنه يتطلب عددًا كبيرًا من أمثلة 
التدريب وهو مناسب فقط للمهام المحددة والمحدودة جیدا. مع توفر مجموعات بیانات أكبر 
وخفض التکالیف الحسابیة أصبحت النماذج القادرة على حل المهام الا کبر متاحة. ومع ذلك 
قد یکون تعلیم نموذجفي کل مرة یحتاج فيها لتعلم مهمة جديدة Gal‏ مستحیللا. نظرًا لأن البیانات 
القديمة قد لا تکون die la‏ فقد لا يتم تخزین البيانات الجديدة بسبب مشکلات الخصوصية أو 
قد لا يدعم تکرار تحدیث النظام تدریب نموذج جدید مع تکرار جمیع البیانات بشکل کاف. 
عندما تتعلم الشبکات العصبية العميقة مهامًا جديدةء فإن المعرفة الجديدة لها الأسبقية على 
المعرفة القديمة إذا لم يتم استخدام معاییر معینق مما يؤدي UU‏ إلى نسیان المعرفة الثانوية. 
یعرف هذا بالنسيان الکارثی (catastrophic forgetting)‏ (انظر الشکل 1-1). يحدث النسیان 
الكارثي عندما تكون الشيكة العصبية المدربة غير قادرة على الحفاظ على قدرتها على أداء المهام 
التي تعلمتها بالفعل عندما تتكيف مع المهام الجديدة. 
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ازر D‏ 
AS‏ 
الشکل 1-1. صورة النسيان الكارثي. تنسى المعرفة التي تم تعلمها سابقًا (تختفي تدريجياً) عند تعلم 
فثات جديدة لم تتم رؤيتها لفترة من الوقت. 
مشكلة أخرى مع الشبكات العصبية العميقة هي آنها غالبا ما يتم تدريبها على افتراضات العالم 
المغلق. أي أنه من المفترض أن يكون توزيع البيانات التجريبية مشابهًا لتوزيع بيانات التدريب. 
ومع ذلك. عند استخدامه في العمل الواقعي. يكون هذا الافتراض غير صحيح ويؤدي إلى 
انخفاض كبير في أدائهم. عندما تعالج الشبكات العصبية العميقة البيانات التي لا تشبه التوزيع 
الذي لوحظ أثناء التدریب. ما یسمی خارج التوزیع (Out-of-distribution)‏ « فإنها Ou‏ ما تقدم 
تنبؤات ELE‏ وتفعل ذلك بثقة كبيرة. (انظر الشكل 2-1). في هذه الحالات . يرتبط إخراج 
الشبكة ارتباطًا مباشرًا بحل المشكلة . أي احتمال کل فئة. ومع ذلك. يجب أن يكون مجموع 
تمثيلات متجه الإخراج واحدا دائمًا. هذا يعني أنه عندما يتم عرض إدخال على الشبكة ليس جزءًا 
إلى واحد. أدت هذه الظاهرة إلى المشكلة المعروفة المتمثلة في الإفراط في الثقة 
(overconfident)‏ في الشبكات العصبية بمحتوى لم يسبق لهم رؤيته من قبل. 
على الرغم من أن هذا الانخفاض في الأداء مقبول لتطبيقات مثل التوصية بالمنتجات. إلا أن 
استخدام مثل هذه الأنظمة في مجالات مثل الطب والروبوتات المنزلية يعد al‏ خطيرًا . حيث 
يمكن أن يتسببوا في حوادث خطيرة. ينبغي ‏ إن أمكن . تعميم نظام الذكاء الاصطناعي المثالي 
على عينات خارج التوزيع. لذلك . تعد القدرة على الكشف عن التوزيعات أمرًا بالغ الأهمية 
للعديد من تطبيقات العالم الحقيقي وهي ضرورية لضمان موثوقية وسلامة أنظمة التعلم الالي. 
في القيادة الذاتية. على سبيل المثال ۰ نريد أن يقوم نظام القيادة بالتحذير وتسليم السيطرة عندما 
يكتشف مشاهد أو أشياء غير عادية لم يراها من قبل ولا يمكنه اتخاذ قرار آمن. 


الفصل الاول: مقدمة في التعلم العميق 


ہو ٭ وم ۷ی 
Wwe d v.‏ 
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KON‏ 
الشكل 2-1. عندما يتم تقديم عينة جديدة خارج التوزيع المکتسب. فإن الشبكات العصبية العميقة لفئة 
معينة تتنبأ بثقة بالتوزيع المکتسب. 


آخیرا. يتمثل أكثر نقاط الضعف المعروفةفي الشبكات العصبيةفي افتقارها إلى الشفافية. بینما 
يمكن تتبع القرارات التي تتخذها النماذج المستندة إلى القواعد من خلال عبارات Afand else‏ 
فإن هذا لن يكون ممکناني التعلم العميق. هذا النقص في الشفافية هو ما يشار Gal‏ التعلم العميق 
باسم "الصندوق الأسود". 

ببساطق آنت لا تعرف كيف ولماذا حصلت شبکتك العصبية على ناتج معین. على سبیل 
المثال. عندما تقوم بإدخال صورة قطة إلى شبكة عصبية ويتنباً بها الجھاز فمن الصعب جداً فهم 
سبب هذا التوقع. سیکون هذا السیناریو ege‏ قرارات العمل. هل يمكنك أن تتخیل أن الرئیس 
التنفيذي لشركة كبيرة يتخذ قرارًا بشأن ملایین الدولارات دون أن تفهم سبب قيامه بذلك؟ فقط 
لأن "الکمبیوتر" یقول | يجب أن يفعل ذلك؟ بالمقارنة. الخوارزمیات مثل آشجار القرار قابلة 
نیریش کل کیره 

تجد خوارزمیات التعلم العمیق الأنماط والارتباطات من خلال البیانات التي يتم تغذیتها بها؛ 
وفي بعض الأحيان تتخذ قرارات مربكة حتی للمهندسین الذین قاموا بانشاتها. لن تکون هذه 
مشكلة عندما یقوم التعلم العمیق بشيء ذي آهمية ثانوية. ولکن عندما یتعلق الأمر بتقریر مصير 
المتهم في المحكمة أو العلاج الطبي لمریض. فقد یکون ذلك أمرًا بالغ الأهمية. لن الاخطاء 
يمكن أن يكون لها عواقب كثيرة. بحسب ماركوس: 

"لا تزال مشكلة الشفافية دون حل » ويريد المستخدمون فهم LAS‏ اتخاذ نظام معين لقرار محدد عند 
استخدام التعلم العميق للعمل في مجالات التشخيص الطبي والأعمال المالية." 

بشكل عام « وفقا لأندرو آنج . يعد التعلم العميق طريقة رائعة "لبناء مجتمع قائم على الذكاء 
الاصطناعي. والتغلب على أوجه القصور هذه بمساعدة التقنيات الأخرى هو الطريق الصحيح 
للوصول الى الهدف. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


مستقبل التعلم العميق؟ 

يعد التعلم العميق حاليًا آکثر تقنيات الذكاء الاصطناعي فاعلية لتطبيقات متعددة. ومع ذلك 
هناك آراء مختلفة حول قدرات التعلم العميق. بينما يعتقد بعض الباحثينفي التعلم العميق أنه 
يمكن حل جميع المشكلات عن طريق التعلم العمیق. هناك العديد من العلماء الذين يشيرون 
إلى أوجه القصورنی التعلم العميق. 

عالم النفس البحثي غاري مارکوس. أحد الروادفی مجال التعلم العميق !!!۰ يقترح Éb‏ جديدة 
لتحسين حلول التعلم العميق. تتضمن هذه الأساليب تقديم المنطق أو المعرفة السابقة للتعلم 
العمیق. وتعلم المراقبة الذاتية. وشبكات الکبسولةء وما إلى ذلك. يؤكد جاري ماركوس أن تقنیات 
التعلم العميق كثيفة البيانات وهشةء وأن قدرتها على التعميم محدودة. 

يقول عالم الكمبيوتر إيان لاكان: "لا يمكن لأي من تقنيات الذكاء الاصطناعي التي نمتلكها 
إنشاء تمثيلات للعالم قريبة مما نراەفی الحيوانات والبشر من خلال البنية أو التعلم". ومن ثم. OB‏ 
تقنيات الذكاء الاصطناعي الحالية مثل التعلم العميق لا تزال غير قادرة على إنشاء ذكاء اصطناعي 
عام يتمتع بذكاء يمكن مقارنته بالحيوانات أو البشر. ومع ذلك يعتقد لاكان أن الذكاء الاصطناعي 
يمكن أن يعزز تطوير الذكاء العام على أساس التعلم العميق دون إشراف. يلبي التقدم الحديث 
الحاجة البشرية إلى البيانات ذات العلامات اليدوية التي تتعلم منها الالات. 

يقترح غاري مارکوس. مؤيد للنهج الهجين للتعلم العمیق, خطة من أربع خطوات لمستقبل 
التعلم العميق: 

1. الاتصال بعالم الذكاء الاصطناعي الكلاسيكي. لا يقترح ماركوس تحرير التعلم 
العمیق. لكنه يجادل بأنه يجب علينا استخدام مناهج أخری للذكاء الاصطناعي مثل 
المعرفة السابقة. والتفکیں والنماذج المعرفية الغنية Go‏ إلى جنب مع التعلم العميق 
من أجل التغيير التحويلي. 

2. بناء أطر معرفية ثرية وقواعد بيانات معرفية واسعة النطاق. تمتلئ أنظمة التعلم العميق 
إلى حد كبير فقط بالارتباطات بين أشياء محددة. لذلك هم بحاجة إلى الكثير من 
المعرفة. 

3. أدوات للتفكير المجرد من أجل التعميم الفعال. يجب أن نكون قادرين على الجدال 
حول هذه الأشياء. لنفترض أن لدينا معلومات عن الأشياء المادية وموقعها فی الكون. 
على سبيل المثال الكوب. يحتوي الكأس على قلم رصاص. يجب أن تكون أنظمة 
التعلم العميق قادرة بعد ذلك على اكتشاف أن أقلام الرصاص قد تسقط إذا قمنا بعمل 
ثقب في قاع الكوب. يقوم البشر دائمًا بهذا النوع من الاستنتاجات. لکن أنظمة التعلم 
العميق الحالية. أو الذكاء الاصطناعي بشکل عام c‏ لا تملك هذه القدرة. 

4. آليات تمثيل واستقراء النماذج المعرفية. 


الفصل الاول: مقدمة في التعلم العميق 


لا یزال أمام التعلم العميق طريق طويل للوصول إلى قدرات نظرائه من البشر. 


(symbolic reasoning) التفكير الرمزى‎ 


يوصف تاريخ أبحاث الذكاء الاصطناعي Chol‏ بأنه تضارب بين نهجين مختلفین للتفکیر الرمزي 
والتعلم الآلي.في العقد الأول» ساد التفكير الرمزي, لکن التعلم الآلي بدأ يتخلل التسعينيات وانتشر 
في جميع أنحاء المجال مع ثورة التعلم العميق. ومع ذلك. يبدو أن التفكير الرمزي هو مجرد 
مجموعة أخرى من الأساليب التي قد تؤدي إلى توسيع وتمكين التعلم العميق. 

يقول نيكو ستروم: "تمتلك شبكات المحولات (Ls (Transformer networks)‏ يسمى 
الانتباه (attention)‏ . يمكنك تعبتتها مسبقا بالمتجهات التى تمثل الحقیقةنی قاعدة المعرفة 
هذه وبعد ذلك يمكنك مطالبة الشبكة بالاهتمام بالمعرفة B‏ اعتمادًا على المدخلات 
لذلك يمكنك محاولة هيكلة معرفة العالم من خلال الجمع بين نظام التعلم العميق. 

هناك أيضًا شبكات عصبية للرسم البياني يمكنها تمثيل المعرفة حول العالم. لديك عقد 
وحواف بين هذه العقد تشير إلى العلاقات بينها. لذلك. على سبيل المثال. يمكنك إظهار 
الكياناتفي العقد ثم العلاقات بين الكيانات. يمكننا استخدام الانتباہنی جزء من الرسم البياني 
المعرفي ذي صلة بالسياق أو السؤال الحالي. 

يبدو أنه يمكن تمثيل کل المعارف‌في رسم بياني واحد. ومع ذلك. فان النقطة المهمة هي 
كيف يمكن القيام بذلك بكفاءة وبشكل مناسب؟ 

"كانت لدی هينتون هذه الفكرة منذ وقت طويل. وقد أطلق عليها اسم ناقل الفكر ) thought‏ 
(vector‏ یمکن تمثيل أي فكرة لديك بواسطة ناقل. الشيء المثير للاهتمام هو أنه يمكننا إظهار 
أي شيء على رسم بياني. ولكن لكي يعمل هذا بشكل جيد باستخدام نموذج التعلم العمیق, 
يجب أن يكون لدينا شيء من ناحية أخرى يمكننا تمثيل كل شيء به. وهذا متجه» حتى نتمكن 


من إنشاء خريطة بين الاثنين. " 


تا ایب سا 
یستخدم التعلم العمیق الآ نكأداة قوية وشائعة لحل المشاکل البشريةفي كل مجال. یستخدم التعلم 
العمیق لمثات المشاکل. من رژية الکمبیوتر إلى معالجة اللغة الطبيعية.في کثیر من الحالات. كان 
التعلم العمیق أفضل من ذي قبل. یستخدم التعلم العمیق على نطاق واسع‌في الجامعات لدراسة 
الذكاء وفي الصناعة لبناء آنظمة ذكية لمساعدة البشرفی مجموعة متنوعة من المهام.في هذا القسم. 
سوف نلقي نظرة على بعض تطبیقات التعلم العمیق التي من المؤكد آنها ستدهشك. بالطبع 
هناك العدید من البرامج المختلفة وهذه القائمة ليست شاملة بأي حال من الأحوال. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


المساعدين الافتراضيين 
آشهر المساعدين الافتراضيين هما Alexa 5 Siri‏ و Google Assistant‏ . يوفر کل تفاعل مع 
هؤلاء المساعدين فرصة لهم لمعرفة المزيد عن صوتك ولغتك. مما يؤدي إلى تجربة ثانوية 
للتفاعل البشري. يستخدم المساعدون الافتراضيون التعلم العميق لمعرفة المزيد حول 
موضوعاتهم. من تفضيلات الطعام الخاصة بك إلى النقاط الساخنة أو الموسيقى المفضلة لديك. 
سوف يتعلمون فهم أوامرك من خلال تقييم اللغة البشرية الطبيعية لتنفيذها. 

هناك ميزة أخرى تُمنح للمساعدين الافتراضيين وهي ترجمة كلامك إلى نص وتدوين 
الملاحظات نيابة عنك وحجز موعد. المساعدون الافتراضيون موجودونفي خدمتك حرفیّاء حيث 
يمكنهم التعامل مع كل شيء بدءًا من المهام وحتى الرد التلقائي على مكالماتك المحددة وتنسيق 
المهام بينك وبين أعضاء فريقك. 


جمع الأخبار واكتشاف أخبار الاحتيال 

توجد الآن طريقة لتصفية جميع الأخبار السيئة والقبيحة من اختيارك للأخبار. يعزز الاستخدام 
المكثف للتعلم العميقفي تجميع الأخبار الجهود المبذولة لتخصيص الأخبار Giy‏ للقراء. على 
الرغم من أن هذا قد لا يبدو جديداء فقد تم تطوير مستويات جديدة من التعقيد لتحديد 
شخصيات القارئ لتصفية الأخبار بناءً على المعايير الجغرافية والاجتماعية والاقتصادية Ge‏ إلى 
جنب مع التفضیلات الفردية للقارئ. من ناحية أخرى. يعد اکتشاف الاحتيال من الأصول المهمة 
في عالم اليوم حيث أصبح الإنترنت المصدر الأساسي لجميع المعلومات الصحيحة والكاذبة. 

من الصعب جد اكتشاف الأخبار المزيفة لأن الروبوتات تكررها de GUE‏ القنوات. يساعد 
التعلم العميقفي تطویر الفئات التي يمكنها اكتشاف الأخبار الزائفة أو المتحيزة وإزالتها من 
مقتطفات الأخبار الخاصة بك وتحذيرك من انتهاكات الخصوصية المحتملة. 


الذكاء العاطفي 


في حين أن أجهزة الكمبيوتر قد لا تكون قادرة على تكرار المشاعر البشرية. فإنها تكتسب Ge‏ 
افضل لمواقفنا بفضل التعلم العميق. أنماط مثل التغييراتفي النغمة أو التجهم الخفيف. أو 
البحة كلها إشارات بیانات dB‏ يمكن أن تساعد الذکاء الاصطناعی واکتشاف الحالة المزاجية 
لدينا. يمكن استخدام مثل هذه البرامج لمساعدة الشركات ae‏ ربط البیانات العاطفية 
بالاعلانات. أو حتى لإعلام الأطباء بحالة المريض العاطفية. 


الفصل الاول: مقدمة في التعلم العميق 


الرعاية الصحية 

لا یمکن للأطباء أن يكونوا مع مرضاهم على مدار 24 ساعةنی الیوم. ولكن الشيء الوحيد الذي 
نحمله معنا ilo‏ هو هواتفنا. بفضل التعلم العمیق. يمكن للأدوات الطبية فحص البيانات التي 
نأخذها وبيانات الحركة لتشخيص المشاكل الصحية المحتملة. يستخدم برنامج رؤية الكمبيوتر 
sla Robbie. AI‏ البيانات لتتبع أنماط حركة المريض للتنبؤ بالسقوط بالإضافة إلى التغیراتنی 
الحالة العقلية للمستخدم. ثبت التعلم العميق Cai‏ أنه يشخص سرطان الجلد من خلال الصور. 

یستخدم التعلم العميق Cal‏ على نطاق واسعفي التجارب السريرية لإيجاد حلول للأمراض 
المستعصية. لکن شكوك الأطباء ونقص قواعد البيانات الشاملة لا يزالان يشكلان تحديات 
لاستخدام التعلم العميقفي الطب. 


کشف الاحتيال 

التعلم العميق دورًا مهمّاني منع هذا النوع من الاحتيال. يمكن الكشف عن الاحتيال بسرعة من 

خلال تقنيات التعلم المتعمق. 
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٭ الذكاء الاصطناعي هو نظام يمكنه محاكاة السلوك البشري. 

* تقوم خوارزمية التعلم العمیق» على غرار الطريقة التي نتعلم بها من التجارب والأمثلةق بعمل 
شيء واحد مرارًا وتكرارًا » وتغییره قليلاً في كل مرة لتحسين النتيجة. 

" تعد نماذج التعلم العميق واحدة من Tod‏ نماذج البيانات في عالم التعلم الآلى. 

* أكثر نقاط الضعف المعروفة في الشبكات العصبية هي عدم وجود الشفافية. 


اختبار 


1. عرف الذكاء الاصطناعي والتعلم الآلي والتعلم العميق. 
2 متى يحدث النسيان الكارثى فى الشبكات العصبية؟ 

3. ما هي الميزة المهمة للتعلم العميق مقارنة بالتعلم الآلي؟ 
4. صف بعض القيود والتحديات في التعلم العميق. 


کک 
um‏ 


الفصل الثاني: الاساسيات 
المقدمة 
التعلم العميق هو مجموعة فرعية من أساليب التعلم الآلي. وبالتالي» سيكون من المفيد مراجعة 
مفاهيم التعلم الآلي قبل التعلم العميق. يوضح هذا الفصل بالتفصيل المفاهيم اللازمة لفهم 
التعلم العميق بطريقة تقلل من المتطلبات الأساسية وتوفر معلومات كاملة حول البيانات 
والأدوات المطلوبة وأساسيات التعلم الآلي. بشكل ple‏ هذا الفصل هو الأساس لمعرفة المحتوى 
الكامل لهذا الكتاب. 
البيانات (Data)‏ 
كلمة "البيانات" مشتقة من الكلمة اللاتينية «dare‏ والتى تعنى "شىء معين"؛ ملاحظة أو حقيقة 
حول موضوع ما. SE‏ البياناتفي مجموعة متنوعة من الأشكال والتنسیقات ولكن يمكن اعتبارها 
عمومًا تجربة عشوائية؛ تجربة لا يمكن تحديد نتيجتها مسبقاء لکن أداؤها لا يزال Gal‏ 
للتحليل. OU‏ ما يتم تخزين بيانات الاختبار العشوائي نی جدول. الاصطلاح الاحصائي هو إظهار 
المتغیرات. التى تسمى غالبا سمات. كأعمدة وعناصر مفردة كصفوف. 


تشیر البيانات إلى أجزاء مميزة من المعلومات GUI‏ عادة ما يتم تنسيقها وتخزينها 
لتناسب غرضا محددا. يمكن أن تأتى البيانات بأشكال عديدة. كأرقام أو نصوص على 
الورق, أو بتات cub gi‏ مخزنة فى الذاكرة الالکترونية, gl‏ كحقائق 039390 فى uai‏ 
الشخص. ومع ذلك. فى علوم الکمبیوتر. تشير البيانات dale‏ إلى المعلومات UI‏ يتم 


ارسالها gl‏ تخزينها إلكترونيًا وترجمتها بطريقة فعالة فی المعالجة أو المعالجة. 


البيانات المقروءة آليًا مقابل البیانات التي يمكن للبشر قراءتها 
تعد البيانات Shel‏ آساسیّا لجمیع المؤسسات وتشكل الأساس للعديد من تطوير التطبیقات. كما 
يعتمد تطبيق الخوارزمية Cal‏ على دقة البيانات Boy‏ المصدر. يعد عرض البيانات بالتنسيق 
الصحيح دون فقد القيمة الأصلية جزءًا مهما من نظام إدارة البيانات. 

يمكن تصنیف جميع البيانات على أنها يمكن قراءتھا GT‏ أو يمكن قراءتها بواسطة الإنسان أو 
كليهما. تستخدم البيانات التي يمكن قراءتها بواسطة الإنسان تنسيقات لغة طبيعية (مثل ملف 
نصي يحتوي على رمز ASCII‏ أو مستند (PDF‏ بينما تستخدم البيانات التي يمكن قراءتها Cf‏ 
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لغات کمبیوتر رسمية منظمة ليتم قراءتها بواسطة أنظمة أو برامج الكمبيوتر. يمكن للآلات والبشر 
قراءة بعض البيانات. مثل CSV‏ أو HTML‏ أو JSON‏ 

القالب المقروء GT‏ مصمم للأجهزة والآلات. يعد فهم هذا التنسيق معقدا بالنسبة للبش 
وهناك حاجة إلى أدوات متخصصة لقراءة محتوى البيانات التی يمكن IN‏ قراءتها. يمكن 
استخراج البیانات المقدمة بتنسيق يمكن قراءته RET CIT‏ من المعالجة والتحليل 
دون تدخل بشري. 

يمكن للبشر فهم البيانات التي يمكن قراءتها وتفسيرها. لا يتطلب تفسير البيانات معدات أو 
أجهزة متخصصة. هذه اللغة لها لغة طبيعية (على سبيل المثال. العربية والإنجليزية والفرنسية وما 
إلى ذلك) وتعرض بيانات غير منظمة. مثال على قالب يمكن قراءته من قبل الإنسان هو مستند 
۳ على الرغم من PDF ol‏ هو وسيط رقمي, إلا أن شاشات العرض لا تتطلب أي معدات 
أو أجهزة کمبیوتر خاصة لتفسيرها. بالإضافة إلى ذلك. Bole‏ ما تكون المعلومات الواردةفي مستند 
PDF‏ مخصصة للبشر وليس للالات. 


البيانات في التكنولوجيا 
كانت البياناتفي طليعة العديد من المحادثات الرئيسية حول التكنولوجيا. يتم تفسیر الابتكارات 
الجديدة باستمرار علی البیانات وكيقية استخدامها وتحلیلها. نتيجة لذلك تشتمل اللغة العامة 
للتكنولوجيا على عدد من التعبیرات الجديدة والقديمة: 
e‏ البيانات الضخمة LS :(Big data)‏ هائلة من البيانات المهيكلة وغير المهيكلة التي يتم 
0 علیها بسرعة من مصادر مختلفة وتزید من البصيرة UAI ESL,‏ 
e‏ تحلیلات البیانات الضخمة ilas :(Big data analytics)‏ جمع مجموعات البیانات 
الضخمة وتنظیمها والجمع بینها GLESY‏ الأنماط أو المعلومات المفيدة الأخرى. 
e‏ تکامل البیانات :(Data integrity)‏ صلاحية البیانات التی یمکن اختراقها بعدة طرق. بما 
في ذلك الخطاً البشري أو أخطاء الإرسال. ۱ 
e‏ البیانات الوصفية (Metadata)‏ : معلومات موجزة حول مجموعة البيانات. 
© البيانات الخام (Raw data)‏ المعلومات التي تم جمعها ولكن لم يتم تنسيقها أو تحليلها. 
e‏ البيانات المهيكلة «(Structured data)‏ أي بيانات في حقل ثابت في سجل أو ملف » 
بما في ذلك البيانات الموجودة في قواعد البيانات وجداول البيانات العلائقية. بعبارة 
ابسطء تتكون البيانات المنظمة من أنواع محددة من البيانات ذات آنماط تجعلها سهلة 
البحث. 
e‏ البيانات غير المهيكلة :(Unstructured data)‏ تختلف المعلومات الموجودة فى قاعدة 
بيانات الصفوف والأعمدة التقليدية عن البيانات غير المهيكلة. بعبارة "nmm.‏ 
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البيانات غير المهيكلة على بيانات لا يمكن dole‏ البحث عنها بسهولة» ہما فی ذلك 
تنسيقات مثل الصوت والفيديو ومنشورات الوسائط الاجتماعية. 


انواع البيانات 
تأتي البيانات بتنسيقات وأنواع مختلفة. يوفر فهم خصائص كل سمة أو جانب معلومات حول 
نوع العملية التي يمكن إجراؤها على تلك السمة. على سبيل المثال» يمكن التعبير عن درجة 
الحرارة فى بيانات الطقس بأحد التنسيقات التالية: 

1. عدد درجات مثویة )25 درجة مئوية) ء فهرنهايت أو مقياس کلفن. 

2. وضع التسميات على أساس الطقس الحار أو البارد أو المعتدل. 

3. عدد أيام السنة التي تقل عن الصفر درجة متوية )20 يومًا في السنة تحت الصفر) 
تشير كل هذه الخصائص إلى درجة حرارة المنطقة. لكن لكل منها نوع مختلف من البيانات. 
رقمى gl (Numeric)‏ مستمر (Continuous)‏ 


درجة الحرارة المعبر عنها بالدرجات المتوية أو الفهرنهايت هي درجة حرارة رقمية ومستمرة لأنه 
يمكن التعبير عنها بالأرقام واتخاذها كقيمة بين أرقام لا نهائية. الرقم الصحيح هو شكل خاص 
من البيانات الرقمية التي لا تحتوي على کسور عشريةفي القيمة أو بشكل آکثر دقة. لا يحتوي على 
TE CENE M‏ المتتالية. عادة ما تشیر إلى عدد العناصی وعدد الأيام التي تقل فيها 
درجات الحرارة عن 0 درجة مثویة وعدد الطلبات. وعدد OGNI‏ الأسرة. وما إلى ذلك. إذا 
تم تحديد نقطة الصفرء تصبح البيانات الرقمية نسبة أو نوع بيانات حقيقي. تشمل الأمثلة درجة 
حرارة كلفن ورصيد الحساب المصرفي والدخل. 

فتوى (Categorical)‏ او اسمي (Nominal)‏ 

يتم تعريف بيانات الفتوية أو الاسمية على أنها بيانات تستخدم لتسمية المتغيرات بدون أي كمية 
صغيرة. عادة لا يوجد ترتيب جوهري للبيانات الاسمية. على سبيل المثالء يمكن اعتبار لون 
الهاتف الذكي نوع بيانات اسمي. UM‏ لا نستطيع مقارنة لون واحد مع الألوان الأخرى. بمعنى 
osi‏ لا يمكن القول إن "الأحمر" أكبر من "الأزرق". كمثال ST‏ لون العين هو متغير اسمي له 
عدة فثات (أزرق, أآخضر بني) ولا توجد طريقة لفرز هذه الفئات من الأعلى إلى الأدنى (الفئوية) 
أو (الاسمية). ۱ 
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مجموعة البيانات Dataset‏ 


هي مجموعة من البيانات التي يتم تقديمها Bale‏ كجدول. يمثل كل عمود متغیرا محددًا (سمة). 
يتوافق كل صف مع عضو معیننی مجموعة البيانات ويعين قيمًا لكل من المتغيرات. تحرف کل 
قيمة بالبيانات. 
التعريف 1.2 
يمكن غالبًا اعتبار مجموعة البيانات على أنها مجموعة بيانات لها نفس الخصائص. 
تتضمن الأحرف الأخرى لکائن البيانات: Jaw‏ أو نقطه. أو متجه: أو نمط. أو «caa‏ أو 
pair‏ أو Jio‏ أو aic‏ أو مشاهدة. أو كيان. 


الميزة هی سمة بيانات. يمكن اعتبار الميزة كمتغير توضيحى. قد تكون هذه الميزة 
رقمية (ارتفاع الشجرة 3 (ro‏ أو قد تكون وصفية (لون العين الزرقاء). فى كثير من 
الأحيان. إذا كانت وصفيه. فستحتاج إلى إعطائها علامة رقمية لإجراء العمليات 
الحسابية. 


طرق التعلم الآلي 
هناك نوعان رئیسیان من طرق التعلم الآلي: بإشراف وبدون اشراف. الفرق الرئيسي بين المنهجين 
هو أن التعلم تحت الاشراف يكتسب التعلم باستخدام حقيقة أو بعبارة أخری لدینا معرفة مسبقة 
بمخرجات عيناتنا. لذلك. فإن الغرض من التعلم الخاضع للإشراف هو تعليم الدال من خلال 
النظرفي عينة من البيانات والمخرجات المعنية» أفضل تقدیر للعلاقة بين المدخلات والمخرجات 
الظاهرةفي البيانات. عادة ما يتم التعلم الخاضع للإشراففي مجال التصنيف. عندما نريد تعیین 
المدخلات إلى تسميات الاخراج. أو الانحدار. عندما نريد تعيين الإدخال إلى إخراج مستمر. 
من ناحية آخری.في التعلم غير الخاضع للإشراف» لا توجد مخرجات معنونةء وبالتالي فان 
الهدف هو استنتاج البنية الطبيعية لمجموعة من نقاط البیانات واكتشاف الأنماط دون أي توجيه. 
المهام الأكثر شيوعاني التعلم غير الخاضع للاشراف هي التجميع Clustering)‏ والأبعاد.في هذه 
الحالات. نريد معرفة البنية الجوهرية لبياناتنا دون استخدام العلامات المتوفرة. 


فى نموذج التعلم الخاضع للاشراف. تتعلم الخوارزمية على مجموعة بيانات مصنفة 


ولديها مفتاح استجابة يمكن للخوارزمية الستخدامه لتقبیم دقتها فى بيانات التدريب. 
فى المقابل. يستخدم النموذج غير الخاضع للإشراف بيانات غير مسماة. وتحاول 
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التعلم باشراف 

يعد التعلم الخاضع للإشراف أحد أكثر فروع التعلم الآلي استخدامًاء والذي يستخدم بيانات 

التدريب المصنفة لمساعدة النماذج على إجراء تنبؤات دقيقة. تعمل بيانات التدريب هنا کمشرف 

ومعلم للالات. ومن هنا جاء الاسم. يعتمد التعلم الخاضع للإشراف على توليد مخرجات من 

التجارب السابقة (البيانات المسماة).في التعلم الخاضع للاشراف يتم تعيين متغیر الإدخال (XL)‏ 

إلى متغير الإخراج (Y)‏ باستخدام دالة التعيين التي تم تعلمها بواسطة نموذج التعلم الآلي. 
y — f(x)‏ 

هنا يقوم بإنشاء نموذج دالي يربط المتغيرين بالهدف النهائي للتنبؤ بالتسمية الصحيحة لبيانات 

الإدخال. 


تحتوى خوارزمية التعلم الخاضع للإشراف دائمًا على هدف gl‏ متغير نتيجة uiio gl)‏ تابع) 
E‏ ی عن ا ede‏ ا لای لد اسا 


تستخدم الخوارزمية هذه المجموعة من المتغيرات لإنشاء Wla‏ تقوم بتعيين 
المدخلات إلى مخرجات عشوائيه. تتكرر عملية التدريب هذه حتی يحقق النموذج مستوى 
Jle‏ من الدقة. 


التصنيف (Classification)‏ 
التصنيف هو عملية تعلم بأشراف. مما يعني أن خوارزمية التعلم تحاول إيجاد اتصال بين البيانات 
والعلامات tly‏ على بيانات التدريب الموسومة مسبقاً. 


فى التصنيف. يتم تحديد الفثات uuo‏ وغالبا ما يشار Law!‏ على أنها أهداف gi‏ علامات 
أو „liò‏ 
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يمكن تقسيم مسائل التصنيف إلى منظورين مختلفين. من وجهة نظر عدد التسمیات. والتي 
يمكن تقسيمها إلى فتتين: التصنيف احادي العلامة (Single-Label Classification)‏ 
والتصنيف متعدد العلامات «(Multi-Label Classification)‏ ومن وجهة نظر obal ste‏ 
يمكن تقسيمها إلى فنتین: التصنيف الثنائى (Binary Classification)‏ وتصنيف متعدد الفتات 
-(Multi-Class Classification)‏ 

التصنيف الثنائي» حيث يتم تخصيص كل حالة لواحد فقط من الفتتين المحددتين مسبقاء 
هو أبسط أنواع التصنيف. يمتد التصنيف الثنائي إلى تصنيف متعدد الطبقات من خلال تحديد 
المزید من الفغات. 
التصنیف احادى العلامة 


فی تصنيف بيانات احادي العلام يمكن ربط كل حالة بعلامة واحدة فقط Gui,‏ خوارزمية 
التصنيففي مرحلة التدريب بعلامة واحدة فقط لكل حالة جديدة. بشكل عام يمكن تقسيم 
مشاكل التصنيف ذات العلامات المفردة إلى مجموعتين رئيسيتين: المشكلات الثنائية ومتعددة 
الفتات. 


التصنيف الثنائى 

مشكلة التصنيف الثنائى هی أبسط حالة لمشكلة التصنيف حيث تقتصر مجموعة الفتات على 
اثنين فقط.في هذا الصدد. فإننا نميز بين فئة إيجابية وفئة سلبية. مثال بسيط على مشكلة التصنيف 
الثنائى هو عندما ترى امرأة طبيبًا لتکتشف آنها حامل. قد تكون نتيجة الاختبار إيجابية أو سلبية. 


oo ۰ Li UI‏ دا ۰ كات 

التصنيف متعدد الفتات أو التصنيف المتعدد هو تصنيف العناصر إلى OLS‏ مختلفة. على عكس 
التصنيف الژثنائی؛ الذي يقتصر على فئتین فقط. فإنه لا يوجد حد لعدد الفئات ويمكنه تصنيف 
أكثر من فتتین. على سبيل المثال» يعد تصنيف LEV‏ إلى فتات مختلفة. وتصنيف الكتب 
حسب الموضوع. وتصنيف الحيوانات المختلفةفي صورة واحدة أمثلة على التصنيف متعدد 
tal‏ 


có Lua Ul‏ متعدد العلامات 


في مشاكل التصنيف التقليدية. ترتبط كل عینة بعلامة فئة. ومع ذلك.في العديد من سيناريوهات 
العالم الحقيقي. قد يتم إقران عينة بعلامات متعددة. على سبيل المثالءفي فئة LEM‏ يرتبط جزء 
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من الأخبار حول Apple GIL!‏ لجھاز iPhone‏ الجديد JS‏ من العلامة التجارية وعلامة 
التكنولوجيا. بمعنى آخرہ ترتبط كل عينة بمجموعة من العلامات بدلاً من واحدة فقط. التعلم 
متعدد العلامات هو سياق تعلم آلي يشير إلى التعلم من البيانات متعددة العلامات التي ترتبط 
فيها کل عينة بالعديد من العلامات المحتملة. 

يعد التصنيف متعدد العلامات أحد أهم القضايافي معالجة اللغة الطبیعیة وخاصةفي تصنيف 
النص. بالاضافة إلى ذلك يتم استخدامهني العديد من قضايا العالم الحقيقي مثل استرجاع 
المعلومات وتشخيص الأمراض والمعلوماتية الحيوية. يكمن الاختلاف بين التصنيف متعدد 
العلامات والتصنيف متعدد العلاماتني عدد العلامات التي يمكن تخصيصها لعينة. 


التوقع Regression‏ 
يتمثل الاختلاف الرئيسي بین نماذج التوقع والتصنيففي استخدام خوارزميات الانحدار للتنبؤ 
بالقيم المستمرة (درجات الامتحان). بينما تتنباً خوارزميات التصنيف بقيم منفصلة (ذکر / gil‏ 
صواب / خطأ). الانحدار هو عملية إحصائية تجد علاقة ذات دلالة إحصائية بين المتغيرات 
التابعة والمستقلة. كخوارزميةء فإنه يتنباً بعدد مستمر. على سبيل المثال» يمكنك استخدام 
خوارزمية الانحدار لتحدید درجات اختبار الطلاب ely‏ على عدد الساعات التي یدرسونھانی 
الأسبوع.في هذه الحالة. تصبح الساعات المدروسة متغيرًا مستقلاً والنتيجة النهائية لاختبار 
الطالب هي متغير تابع. يمكنك رسم خط الأنسب (Fitting Line)‏ من خلال نقاط بيانات 
مختلفة لإظهار تنبؤات النموذج عند إدخال مدخلات جديدة. يمكن استخدام نفس الخط للتنبؤ 

بدرجات الامتحان بناءً على آداء طالب آخر. 

كمثال آخر. افترض أننا نريد أن يكون لدينا نظام يمكنه التنبؤ بسعر السيارة المستعملة. 
المدخلات وخصائص السيارة مثل العلامة التجارية والسنة والمسافة المقطوعة وغيرها من 
المعلومات التي نعتقد أنها تؤثر على قيمة السيارة والمخرجات هي سعر السيارة. أو فکرفی التنقل 
مع روبوت متحرك (سيارة ذاتية القيادة)؛ الإخراج هو الزاوية التي يجب أن تدور فیها عجلة 
القيادةفي كل مرة للتقدم دون الاصطدام بالعقبات والانحرافات» ويتم توفير المدخلات بواسطة 
أجهزة استشعارفي السيارة مثل كاميرات الفيديو ونظام تحدید المواقع العالمي (GPS)‏ وما إلى 
ذلك. 


مزایاوعیوب التعلم تحت الإشراف 


" التعلم تحت الإشراف هو عملیه بسیطه یمکنک فهمها. 
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2 بعد الانتهاء من عملي التدريب yi‏ تحتاج إلى الاحتفاظ ببيانات التدريب فی الذائرة. 
goaa *‏ طریقهٌ التعلم بدون اشراف. 
= نظرالوجود بیانات مصنفهٌ Ado,‏ بسوولة اختبار النموذج وتصحيحه. 


* التعلم الخاضع للاشرات 29120 فى ثثير من النواحی بحیث لا «lol ado‏ بعض مهام التعلم الالى 
المعقده. 

* |ذا قدمنامدخلاب ليست من sl‏ من فئات بیانات التدريب , فقدیگون الناتج تسمیه ak‏ خاطنَه. على 
سبیل المثال « افترض أنك تقوم بتدریس مصنف الصور باستخدام بیانات القطط والگلاب. ثم إذا 
أعطيت صور ةز رافة» فقدیگون الناتج glaas‏ ثلباء وهذالیس صحیحا. 

* یستفرق التدریب الكثيرمن الوقت الحسابی. 

* يعد جمع البیانات وتصنیفهاآمرامگلفا ویستفرق وقتاطويلا. 

التعلم بدون اشراف 

یحدث التعلم بدون اشراففي التعلم الآلي عندما لا يكون هناك تسمية للبيانات أو تصنیف لها. 
تتمثل المهمةفي فرز المعلومات غير المجمعة بناءً على بعض آوجه التشابه والاختلاف دون أي 
توجیه. بمعنی آخر» من المتوقع أن تعثر الآلة على آنماط وهیاکل مخفيةفي البیانات غير المسماة 
بمفردها. هذا هو السببفي أنه يطلق عليه بدون اشراف. لأنه لا يوجد دلیل لتعلیم السیارة ما هو 
الصواب وما هو الخطأ.في هذا النهج. لا تعرف الآلة ما الذي تبحث عنه. ولکن يمكنها فرز البیانات 
بشکل مستقل والعثور على آنماط مقنعة. 

مجموعات التعلم غير الخاضعة للإشراف معلومات غير منظمه بناء على آوجه التشابه 
والاختلاف Gia‏ لو لم يتم توفیر فثات. 
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Clustering التجميع‎ 


التجميع (الكلاسترينك) هو عملية تعيين عينات البيانات لعدد معين من المجموعات (الشكل 
1-2) بحيث يكون لنقاط البيانات التى تنتمى إلى المجموعة (العنقود) خصائص متشابهة. 
بعبارات آبسط. لا تعد المجموعات BUS — yi‏ البیانات بحيث تكون المسافة بین 
نقاط البيانات داخل المجموعات‌ي حدها الأدنی. الهدف من تحليل المجموعة (بشكل مثالي) 
هو العثور على مجموعات تكون فيها العينات داخل كل مجموعة متشابهة Giles‏ حين أن کل 
مجموعة مختلفة GLS‏ عن بعضها البعض. 

بيانات بدون 


fe‏ ب 


نظرا لأن التجميع يتم بواسطة خوارزمية. فمن المحتمل آنک ستکون aö‏ على 
اكتشاف الارتباطات غير المعروفة سابقًا فی البيانات QU!‏ یمکن أن تساعدک فی مواحهة 
تحدى الأعمال من منظور جديد. 


تقليل الأبعاد 


يشير إلى عملية تقليل عدد السماتفي مجموعة البیانات. مع الاحتفاظ بالتغييرات على مجموعة 
البيانات الأصلية قدر الإمكان. تعمل عملية تقليل الأبعاد بشكل أساسى على تحويل البيانات من 
مساحة ميزة عالية الأبعاد إلى مساحة ميزة ذات أبعاد أصغر.في el‏ تفم من المهم ألا تضيع 
الميزات المفيدة للبيانات أثناء التحويل. 
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مقارنة التعلم بالإشراف مع التعلم بدون إشراف 

لنفترض أننا نريد تعليم طفل لغة جديدة؛ على سبيل المثال الإنجليزية. إذا فعلنا ذلك وفقا لمبدأ 
التعلم الخاضع GLAD‏ فاننا ببساطة نمنحه قاموسًا يحتوي على كلمات إنجليزية وترجمة إلى 
لغته الأم» على سبيل المثال العربية. سيكون من السهل نسبيًا أن يبدأ الطفل التعلم» وربما يمكنه 
التقدم بسرعة كبيرة عن طريق حفظ الترجمات. ومع ذلك. سيجد صعوبةفي قراءة وفهم النصوص 
GUL‏ الانجليزية. oY‏ تعلم فقط ترجمات الكلمات العربية-الانجليزية وليس البنية النحوية 
للجمل الإنجليزية. 

;3 لمبدأ التعلم غير الخاضع للاشراف. يبدو السيناريو مختلفاً GLS‏ على سبيل المثال» 
نمنح الطفل خمسة كتب باللغة الإنجليزية ويتعلم. طبعا هذا أكثر تعقيدا!! على سبيل المثالء 
بمساعدة "البيانات"» يمكن للطفل أن يدرك أن كلمة "آنا" متكررة نسبیّانی النص» وفی كثير من 
الحالات حتىفي بداية الجملة. ويستخلص منها استنتاجات. ۱ 

يوضح هذا المثال الفرق بين التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف. التعلم 
الخاضع للإشراف هوني كثير من الحالات خوارزمية أبسط. ومع ذلك فان النموذج يتعلم فقط 
السياقات المضمنة بشكل صريحفي مجموعة بيانات التدريب ويتم تقدیمها كمدخلات للنموذج. 
على سبيل المثال. يمكن للطفل الذي يتعلم اللغة الإنجليزية أن يترجم الکلمات العربية إلى 
الإنجليزية جيداء لكنه لم يتعلم قراءة وفهم النصوص الإنجليزية. 

من ناحية أخرىء» يعد التعلم غير الخاضع للإشراف مهمة أكثر تعقیدا لأنه يجب أن يحدد 
الهياكل ويتعلمها بشكل مستقل. نتيجة لذلك يستغرق الأمر مزیدا من الوقت والجهد للممارسة. 
d al‏ مع ذلك. هي أن النموذج المدرب يحدد أيضا المجالات التي تم تغطيتها بشكل صريح. 
من المرجح أن يكون الطفل الذي تعلم اللغة الإنجليزية بمساعدة خمس روايات إنجليزية قادرا 
على قراءة النصوص الإنجليزية وترجمة الكلمات الفردية إلى العربية وفهم قواعد اللغة الإنجليزية 
أيضًا. 


لماذا التعلم بدون اشراف؟ 
التعلم الخاضع للإشراف فعال GLL‏ تحسين أداء المهام باستخدام مجموعات البيانات ذات 
العلامات المتعددة. على سبيل JEI‏ ضعنی اعتبارك مجموعة بيانات كبيرة جد من صور 
الكائنات التي تم وضع علامة على كل صورة. إذا كانت مجموعة البيانات كبيرة بما يكفي» وإذا 
قمنا بتدريبها جیدا بما يكفي باستخدام خوارزميات التعلم الالي الصحيحة وباستخدام جهاز 
كمبيوتر قوي. فيمكننا إنشاء نموذج تصنيف للصور قائم على التعلم يتم الإشراف عليه جيدا. 
نظرًا oY‏ يتم تدريب الخوارزمية عن طريق الاشراف على البیانات يمكنها قياس أدائها (عن 
طریق دالة الخطأ) من خلال مقارنة علامة الصورة المتوقعة مع علامة الصورة الفعلية الموجودة 
لدينافي مجموعة البيانات. تحاول الخوارزمية صراحة تقليل دالة الخطأ او التكلفة هذه؛ بحيث 
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يكون الخطأني الصور التي لم يتم رؤيتها من قبل (مجموعة الاختبار) أقل ما يمكن. هذا هو 
السببفي أن العلامات قوية dl‏ فهي تساعدفي توجيه الخوارزمية من خلال توفير مقياس للخطأ. 
تستخدم الخوارزمية مقياس الخطأ لتحسين أدائها بمرور الوقت. بدون هذه العلامات: لا تعرف 
الخوارزمية مدى نجاحھافی تصنيف الصور بشکل صحيح. ومع ذلك.في بعض الأحيان تكون 
تكلفة وضع العلامات يدويًا على مجموعة بيانات عالية جدا. 

بالإضافة إلى ذلك. على الرغم من قوة نماذج التعلم الخاضعة للإشراف. إلا أنها محدودةنی 
تعميم المعرفة خارج نطاق المعرفة التي يتم تدريبهم عليها. نظرًا لأن معظم بيانات العالم غير 
doles‏ فإن قدرة الذكاء الاصطناعي على توسيع وظائفه لتشمل أمثلة غير مرئية من قبل محدودة 
باستخدام التعلم الخاضع للإشراف. بمعنی آخرء يعد التعلم الخاضع للاشراف أمرًا Gil‏ لحل 
مشاكل الذكاء الاصطناعي الضيق «(Narrow AD‏ ولكنه ليس رائعًا لحل مشكلات الذكاء 
الاصطناعي القوية. 

على النقيض من ذلك. فإن التعلم غير الخاضع للإشراف مناسب جداً للمشكلات التي تكون 
فيها الأنماط غير معروفة أو تتغير باستمرار أو ليس لدينا مجموعات بيانات ذات علامات كافية 
لها. يعمل التعلم غير الخاضع للإشرافء بدلاً من الاسترشاد بالعلامات. من خلال تعلم البنية 
الأساسية للبيانات التي يتم التدريب عليها. يقوم التعلم غير الخاضع للإشراف بهذا من خلال 
محاولة تمثيل البيانات التي يتم تدريسها عليها باستخدام مجموعة من المعاملات. من خلال 
القيام بهذا التعلم التمثيلي «(representation learning)‏ يمكن للتعلم غير الخاضع للإشراف 
تحديد أنماط مميزةفي مجموعة البيانات. 


التعلم هو تمثيل لمجموعة فرعية من التعلم JUI‏ الذى يهدف إلى الحصول على ميزات 0142 ومفيدة 
للبيانات تلقائیاء دون اشراف مهندس -oso‏ فى هذا النهجء يأخذ الجهاز البيانات agl‏ تمدخلات 
ویفتشف تلقائيا التمثيلات اللازمه لتحدید الميزةء ثم یتعلم تلقائیا المیزات الجديدةًٌ ویطبقها. . بمعنی 


AT‏ الهدف yo‏ التعلم التمثیلی هو ایجاد تعویل یقوم بتعیین البیانات الأولية إلى تمثیل یلون أثثر 
ملاءمة لمهمه تعلم alll‏ (مثل التصنيف) . Ly‏ لأنه یمن تفسير هذه GÀ, eJ‏ على أنها ples‏ میزات 


04480« فإنهاتسمى أيفاتعلم الميزات. 

في فال مجموعة بیانات الصورة (هذه المرة غير alae‏ قد يكون التعلم غير الخاضع 
للإشراف قادرًا على تحديد الصور وتجميعها tly‏ على مدى تشابهها مع بعضها البعض وكيف 
تختلف عن الآخرين. على سبيل المثال» يتم تجميع جميع الصور التي تشبه الكراسي معّ ويتم 
M‏ ہے بس بالطبع. لا يمكن للتعلم الموجه SI‏ تصنيف هذه 
المجموعات على أنها "كراسى" Í‏ و "قطط". ومع ذلك الآن بعد أن تم تج تجميع الصور المتشابهة 
Ni Gee‏ اوہ ام وی VEM‏ 
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ملايين الصور يدويًاء يمكن للبشر وضع علامة یدویّا على جميع المجموعات المنفصلة وتطبيق 
هذه العلامات على جميع أعضاء كل مجموعة. 

وبالتالي» فإن التعلم غير الخاضع للإشراف يجعل المشكلات التي كانت غير قابلة للحلفي 
السابق أكثر ALB‏ للحل وأكثر مرونقنی العثور على الأنماط المخفیةء سواءفي البيانات السابقة 
المتاحة للتدريب dal‏ البيانات المستقبلية. حتى لو كان التعلم غير الخاضع للإشراف أقل كفاءة 
في حل مشكلات معينة (مشاكل محدودة للذكاء الاصطناعي) من التعلم الخاضع للإشراف. فمن 
الأفضل التعامل مع المشكلات الأكثر انفتاحًا من نوع أقوى من الذكاء الاصطناعي وتعميم هذه 
المعرفة. والأهم من ذلك. أن التعلم غير الخاضع للإشراف يمكن أن يحل العديد من المشكلات 
الشائعة التي يواجهها علماء البيانات عند بناء حلول التعلم الآلي. 


مزايا وعيوب التعلم بدون اشراف 


* يمكنه رؤية مالايستطيع العقل البشرى تخيله. 
* الحصول على البيانات غيرالمعلمةأسهل نسبيا. 


" إنهاتكلف أثثرلأنهاقد تتطلب تدخلابشريالفهم الأنماط وربظھابالمعرف الميدانية. 
howd *‏ دائمًا التحقق من فائده النتائج ء لأنه لاتوجد تسمیهٌ مخرجات أو معاييرلتأكيد فائدتها. 
" النتائجغالباماتكون أقل £059 


التعليم المعزز 

يتجذر التعلم المعززفي سيكولوجية تعلم الحيوانات وهو يدور حول تعلم السلوك الأمثلفي بيئة 
للحصول على أقصى قدر من المكافأة. يتم تعلم هذا السلوك الأمثل من خلال التفاعل مع البيئة 
وملاحظات كيفية تفاعلها. يكافأ المتعلم (الوكيل) على الأعمال الصالحة ويعاقب على الإثم. 
في حالة عدم وجود مراقب. يسعى المتعلم إلى سياسة فعالة لحل مهمة صنع القرار. تحدد مثل 
هذه السياسة LAS‏ تصرف الوکیل فی أي موقف قد يواجهه من أجل تكبير (أو تقليل إجمالي 
GUI‏ المتوقعة عن طريق التجربة والخطأنی التفاعل مع بيئة ديناميكية. يعد التعلم المعزز 
خوارزمية قوية للغایة o‏ يمكن أن يتعلم الإجراءات التي تؤدي إلى النجاح النهائيفي بيئة غير 
مرئية دون مساعدة مراقب.. 
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اخنیار النموذج ونقييمه 

يمكن أن يكون لاختيار نموذج للتعلم الآلي معان مختلفة. قد نكون مهتمين باختيار أفضل 
المعاملات الفائقة (Hyper Parameters)‏ لطريقة التعلم الآلي. المعاملات الفائقة هي معاملات 
طريقة التعلم التي يجب أن نحددها مسبقاء أي قبل ملاءمة النموذج.في المقابل. معاملات 
النموذج هي معاملات تم إنشاؤها كنتيجة للملاءمة. على سبيل المثال.في نموذج الشبكة العصبیق 
يعد عدد الخلايا العصبية للطبقة المخفية وعدد الطبقات المخفية معاملات فائقة يجب تحديدها 
قبل الترکیب.في حين أن أوزان النموذج هي معاملات النموذج. يمكن أن يكون العثور على 
المعاملات الفائقة المناسبة للنموذج أمرًا بالغ الأهمية لنموذج الاداء. 

في آوقات أخرى. قد نرغبني تحديد أفضل طريقة تعلم من مجموعة من أساليب التعلم الآلي 
المؤهلة (الخوارزميات). 


اختيار النموخج (Model Selection)‏ 
اختیار نموذج تقنی لاختيار النموذج الأفضل بعد تقييم ثل نموذج بناء على المعاييرالمطلوبة. 


قبل مناقشة طرق اختيار النموذح. هناك شيء آخر نحتاج إلى مناقشته: تقييم النموذج. الغرض 
من تقییم النموذج (model evaluation)‏ هو تقدير الخطأ العام للنموذج المحدد. أي إلى أي 
مدى يعمل النموذج المحدد على بيانات غير مرئية. من الواضح أن نموذج التعلم الآلي الجيد هو 
النموذج الذي لا يؤدي فقط Fal‏ جیدا على البيانات التي تم تعلمها أثناء التدريب (وإلاء يمكن 
لنموذج التعلم الالي بسهولة حفظ بيانات التدریب). ولكن Lal‏ على البيانات غير المرئية لها 
آداء جيد. لذلك قبل نشر نموذج للانتاج» يجب أن نتأكد نسبيًا من أن أداء النموذج لن ینخفض 
في مواجهة البيانات الجديدة. 

لکن لماذا نحتاج إلى التمييز بين اختيار النموذج وتقييم النموذج؟ السبب هو أكثر من 
المناسب. إذا قمنا بتقدير خطأ التعميم للنموذج الذي اخترناه على نفس البيانات التي استخدمناها 
لتحديد النموذج المنتخب le)‏ افتراض أن النموذج قد تم اختياره Fly‏ على مجموعة التدریب). 
فسنحصل على تقدير متفائل. لماذا ا؟ الجواب بسيط!! كان نموذج التعلم الالي قادرًا على حفظ 
بيانات التدريب بسهولة. لذلك. لتقييم الأداء وتجنب مثل هذه المشاكلء نحتاج إلى بيانات 
مستقلة GLS‏ لتقدير خطأ التعميم للنموذج. 

تعتمد الإستراتيجية المقترحة لاختيار النموذج على كمية البيانات المتاحة.في حالة توفر الكثير 
من البیانات. قد نقوم بتقسيم البيانات إلى عدة آقسام. لكل منها غرض محدد. على سبيل المثالء 
لتعیین معاملات GEE‏ قد نقسم البيانات إلى ثلاث مجموعات: التدريب / التحقق من الصحة 
/ الاختبار. يتم استخدام مجموعة التدريب لتعليم نماذج مختلفة بعدد مختلف من مجموعات 
المعلمات الفائقة النموذجية. يتم تقييم هذه النماذج بعد ذلك على مجموعة التحقق ويتم اختيار 
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النموذج الذي يتمتع بأفضل أداءفي مجموعة التحقق من الصحة كنموذج منتخب. بعد ذلك يتم 
إعادة تدريب النموذج على بيانات التدريب جنبّا إلى جنب مع بيانات التحقق من الصحة 
باستخدام مجموعة من المعاملات الفائقة المحددةق ويتم تقدير الأداء العام باستخدام مجموعة 
اختبار. إذاكان خطأ التعميم هذا مشابهًا لخطأ التحقق من الصحة. فإننا نعتقد أن النموذج سيعمل 
بشكل جيد على البيانات غير المرثبة. 

ما افترضناه ضمنیّا خلال المناقشة أعلاه هو أنه تم أخذ عينات من بيانات التدریب والتحقق 
من الصحة والاختبار من توزيع واحد. إذا لم يكن الأمر کذلك. فكل التقديرات خاطتة GLS‏ 
هذا هو السببني أنه من المهم التأكد من أن توزيع البيانات لا يتأثر بتجزئة بياناتك قبل إنشاء 
النموذج. 

ولكن ماذا لو كانت البيانات القليلة هي كل ما لدينا؟ كيف تختار وتقيم النموذجنی هذه الحالة؟ 
الإجابة هي أن تقييم النموذج لا يتغير لأننا ما زلنا بحاجة إلى مجموعة تجريبية یمکننا على أساسها 
تقدير خطأ التعميم للنموذج النهائي المحدد. ومن ثم. نقسم البيانات إلى مجموعتین. مجموعة 
للتدريب ومجموعة للاختبار. ما يتغير مقارنة بالطريقة السابقة هو كيف نستخدم البرنامج 
التدريبي. إحدى هذه التقنيات هي التحقق المتبادل. والتي ستتم مناقشتها GY‏ باختصار ومع 
ذلك. فإن التحقق المتبادل هو أسلوب يقسم مجموعة التدريب الرئيسية إلى مجموعتين من 
التدريب والبيانات التجريبية (التحقق من الصحة). 


تجزثة البيانات 


على الرغم من أن خوارزميات التعلم الالي تعتبر أدوات مذهلة وقوية في التنبؤ والتصنيف. 
فإن السؤال الذي يطرح نفسه هو مدى دقة هذه التنبؤات وهل هناك طريقة لقياس آداء 
النموذج؟ نظرًا OY‏ هذه الخوارزميات تحتوي على علامات مميزة للعينات» يمكن الإجابة 
على هذا السؤال بتقسيم عينات التدر يب إلى عدة أقسام . 

من خلال تقسيم البیانات. نقوم Yol‏ بإجراء التدريب على جزء من البيانات » ثم 
نستخدم البيانات التجريبية لقياس كفاءة النموذج وإمكانية تعميمه. يشير التعميم إلى أداء 
النموذج في التعامل مع البیانات. وهو ما لم يلاحظه النموذج بعد في عملية التدريب. 
بالطبع في تصميم نماذج التعلم الآلي نقوم في أغلب الأحيان بتقسيم مجموعة بيانات 
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المشكلة إلى قسم آخر بالإضافة إلى بيانات تدریب والاختبار . وطريقة هذا التقسيم على 
النحو التالي: 

* مجموعة تدريب: عادة ما تكون أكبر مجموعات البيانات الثلاث وتستخدم للعثور 
على معاملات النموذج. تحدد مجموعة بيانات التدريب العلاقة الأساسیة بين 
البیانات وعلاماتها بأفضل طريقة ممكنة. 

= مجموعة الاختبار: قياس أداء النموذج بناءً على قدرة النموذج على التنبؤ بالبيانات 
التي لا تلعب دورًا في عملية التعلم مجموعة الاختبار هي نفس البيانات التي لم 
يتم رؤيتها في عملية التعلم. هذه المجموعة تقيس آداء النموذج النهائي. إذا كان 
النموذج يعمل بشكل جيد في مجموعة التدريب ويناسب Cas)‏ مجموعة الاختبار 
أي أنه يتنبأ بالتسمية الصحيحة لكمية كبيرة من بيانات الإدخال التي تم تجاهلها. 
وتجدر الإشارة إلى أن مجموعة الاختبار تستخدم عادة مرة واحدة فقط لتقييم أداء 
تعميم النموذج بشكل كامل بمجرد تحديد معاملات النموذج والمعاملات الفائقة 
بشكل كامل. ومع ذلك c‏ یتم استخدام مجموعة من عمليات التحقق لتقريب الأداء 
التنبئي لنموذج أثناء التدريب. 

= مجموعة التحقق من الصحة : في تقييم أنواع مختلفة من النماذج والخوارزميات 
للمشكلة . يتم استخدام مجموعة التحقق من الصحة. استخدم هذه البيانات لضبط 
المعاملات الفائقة ومنع النموذج من overfitting‏ لتحديد أفضل نموذج. 


j‏ تستخدم مجموعة التحقق yo‏ الصحة للحصول على قيم المعاملات الفاثقة المثلى 
(تحسين المعاملات الفائقة) وللمساعدة فی تحديد النموذج. ويتم استخدام acgo ro‏ 
الاختبار لتقييم أداء النموذج (JU UI‏ فی العينات التى تظهر فى عملية التعلم. 


(Bias- Variance Trade-Off) توازن التحيز والتباين‎ 


في التعلم الالي. تكون العلاقة بين تعقيد النموذج وخطأ التدريب والاختبار نتيجة لخاصيتين 
متنافستين هما التحيز والتباين. يشير التحيز إلى خطأ يحدث عند محاولة استخدام نموذج بسيط 
لحل مشكلة معقدةفي العالم الحقيقي. بمعنى آخره هذا هو عدم قدرة نموذج التعلم الآلي على 
تصوير العلاقة الحقیقیةئی البيانات. على سبيل المثال. إذا أردنا استخدام الانحدار الخطي لتقدير 
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العلاقة غير الخطية. فسيكون للنموذج انحياز كبير. هذا OV‏ الخط المستقيم لا يمكن أن يكون 
مرنا بما يكفي لتصوير علاقة غير خطية. 

في المقابل التباين هو الاختلاف‌ني الملاءمة (fit)‏ بين مجموعات البيانات. على سبيل 
NX‏ عندما يكون النموذج مناسبّاء يكون له تباین كبير. oY‏ خطأ التنبؤ مختلف جدا بالنسبة 
لمجموعة التدريب والاختبار. 

بشکل ple‏ نود أن یکون لدینا أقل قدر ممكن من التحيز والتباين. ومع ذلك. فان هذه المعايير 
لها تأثيرات معاكسة ولا يمكن تقليل التحيز دون زيادة التباين. من أجل إيجاد التوازن الأمثل بين 
التحيز والتباين» نقوم بتقييم عدة نماذج للعثور على أفضل المعاملات للنموذج. على سبيل 
المثال» نقوم Chol‏ بتقسيم مجموعة البيانات إلى جزأين: مجموعة التدریب ومجموعة الاختبار. 
عند تقييم أداء نموذج مبني على مجموعة التدریب. سواءفي مجموعة التدريب أوفي مجموعة 
الاختبار نريد أن يكون خطأ التنبؤ منخفضًا قدر الإمكان. إذا كان النموذج يحتوي على خطأ تنبؤ 
منخفض في مجموعة التدریب. ولكن خطأ تنبؤ عاليفي مجموعة الاختبار, يُقال إن النموذج به 
تباین كبير ونتيجة لذلك أدت البيانات إلى الضبط الزائد (فرط التخصيص) -(Overfitting)‏ 
بشكل عام» النماذج الأكثر تعقیدا لها تباین أعلى. وذلك OY‏ النموذج المعقد يمكنه تتبع البيانات 
المحددة التي يتوافق معها بشكل أكثر دقة. ومع ذلك نظرًا لن النموذج المعقد يتتبع البيانات 
عن كثب. فمن المرجح أن يُظهر علاقة حقيقيةفي البيانات التدريبية وبالتالي أقل تحیرًا۔ لذلك. لا 
يمكن تحقيق اختيار نموذج ذي انحياز أقل نسبيًا إلا بتكلفة تباین أعلى. 

من ناحية أخرىء إذا كان النموذج يحتوي على la‏ تنبؤ کبیرنی كل من المجموعات التدريبية 
والتجريبية فيقال إن النموذج لديه تحيز كبير وبالتالي يتجاهل البيانات. باختصار إذا كان نموذج 
بيانات التدريب معقدا للغایة فسيكون خطأ التنبؤفي بيانات التدريب منخفضًا. بمعنى آخر. يؤدي 
النموذج عادة إلى التجهيز الزائد وبالتالي لا يتوافق جیدا مع البيانات التجریبیة مما يؤدي إلى 
خطأ تنبؤ أعلى للمجموعة التجريبية. الهدف هو إيجاد الحل الأمثل. وهذا هو التوازن بين التحيز 
والتباين. 

هناك عدة طرق لضبط التحيز والتباين. تحتوي معظم الخوارزميات على معاملات تنظم تعقيد 
النموذج. OU‏ ما يشار إلى هذه العملیة باسم "إعداد المعاملات الفائقة". والتي تعد جزءا أساسيًا 
من مرحلة تقييم النموذج. 
التحيز هو نموذج للتعلم الآلى للحصول على علاقة حقيقية yy‏ متغيرات البيانات. هذا 
بسبب الافتراضات الخاطئة داخل خوارزمية التعلم. لا يولى نموذج التحيز المرتفع 


اهتماما کبیرا لبيانات التدريب ويجعل النموذج بسیطا للغاية ويؤدى Lola‏ إلى خطأ كبير 
فى بيانات التدريب والاختبار. 
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طرق التقييم 

في حين أن تدريب النموذج هو خطوة آساسية. فإن كيفية تعميم النموذج على البيانات غير 
المرئية هي جانب مهم بنفس القدر يجب مراعاته بعد تصميم أي نموذج للتعلم الآلي. يجب 
التأكد من أن النموذج فعال G>‏ وأن نتائج تنبؤاته يمكن الوثوق بها. 

يمكن تدريب خوارزمية التصنيف على مجموعة بيانات محددة مع مجموعة فريدة من 
المعاملات التي يمكن أن تخلق حدود قرار تتناسب مع البيانات. نتيجة تلك الخوارزمية المعينة 
لا تعتمد فقط على المعاملات المتوفرة لتدريب النموذج» ولكن Call‏ على نوع بيانات التدريب. 
إذاكانت بيانات التدریب تحتوي على تباین بسيط أو كانت البيانات موحدة فقد يؤدي النموذج 
إلى 0776556128 وإنتاج نتائج متحيزة على البيانات غير المرئية. لذلك. یتم استخدام طرق مثل 
التحقق المتبادل لتقليل Goverfitting‏ التحقق من الصحة. التحقق من الصحة المتبادل هو 
أسلوب يقسم مجموعة التدريب الرئيسية إلى مجموعتين من التدريب والبيانات التجريبية 
(التحقق من الصحة). الطريقة الأكثر شیوعا للتحقق المتبادل هي التحقق متعدد الأجزاء K-‏ 
fold Validation‏ والذي يقسم مجموعة البيانات الرئيسية إلى أجزاء k‏ متساوية الحجم. k‏ هو 
رقم يحدده المستخدم c‏ وعادة ما يتم تحديد 5 أو 10.في هذه الطريقة.في کل مرة یتم استخدام 
واحدة من المجموعات الفرعية k‏ كمجموعة تحقق (اختبار) ويتم تجميع المجموعة الفرعية 
k- 1‏ معًا لتشكيل مجموعة تدريبية. للحصول على الكفاءة الكلية للنموذج يتم حساب متوسط 
تقدير الخطأفي جميع التجارب. 
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معايير تقييم cla UI‏ 
لحساب معاییر التقييم لنموذج التصنیف. نحتاج إلى أربع مجموعات من الفئة الحقيقية وفتة 
التنبؤ مع العناوین c‏ الموجبة الحقيقية c‏ الموجبة الخاطتة . السلبية الحقيقية والسلبیة الخاطتق 
والتي يمكن تمثيلها في مصفوفة الارتباك (Confusion Matrix)‏ (جدول 1-2 ): 

٭ موجب حقيقي (TP)‏ على سبيل المثال . عندما كانت القيمة الفعلية للفئة انعم" » توقع 


النموذج Ca‏ "نعم" (أي توقع صحيح). 
e‏ موجب خاطی (CFP)‏ على سبيل المثال . عندما كانت القيمة الفعلية BAU‏ "لا" لکن النموذج 


توقع "نعم" (أي توقع خاطی). 
۰ منفى خاطیع (FN)‏ على سبيل المثال . عندما تكون القيمة الفعلية للفئة "Yes"‏ ء لکن 
النموذح توقع "لا" (أي توقع خاطی). 
٭ منفی حقيقي (TN)‏ على سبیل المثال . عندما تكون القيمة الفعلية للفثة الا" وتوقع 
النموذج "ل" (أي . كان التوقع (o‏ 
جدول 1-2. مصفوفة الارتباك 


منفی خاطی 
(TP) (FN)‏ 


منفى حقيقي | موجب خاطی 
(FP) (TN)‏ 


المعيار الأكثر شيوعًا الذي يتم الحصول عليه من مصفوفة الارتباك هو دقتها (accuracy)‏ أو 
عكسها: خطÎ‏ التنبؤ «(prediction error)‏ 
TP+TN‏ 
TP+FN+FP+TN‏ 
الدقة - 1 = goles‏ 


ح الدقة 


الدقة هى نسبة عدد التنبؤات الصحيحة إلى العدد الإجمالى لعينات الإدخال. 

عندما سپ ek‏ ودج ماء فإننا un‏ معدلات الخطأ والدقة. ولكن ما 
نركز عليه بشكل أساسي هو مدى موثوقية نموذجناء وكيف يعمل على مجموعة بيانات مختلفة 
(قابلية التعميم) ومدى مرونته. لا شك أن الدقة معيار مهم للغاية يجب أخذهفي الاعتباں لكنها لا 
تقدم Glo‏ صورة کاملة لأداء النموذج. 
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عندما نقول إن النموذج موثوق. فإننا نعني أن النموذج قد حصل على البيانات بشكل صحيح 
ووفقًا لطلب التعلم. لذلك. فان التنبؤات التي قدمتها قريبة من القيم الفعلية.في بعض الحالات. 
قد يؤدي النموذج إلى Bo‏ آفضل. لكنه قد لا يفهم البيانات بشكل صحيح وبالتالي يؤدي بشكل 
سيئ عندما تكون البيانات مختلفة. هذا يعني أن النموذج ليس موئوقا وقويًا بدرجة كافية وبالتالي 
يحد من استخدامه. 

على سبيل المثال لدینا 980 تفاحة و20 برتقالة ولدينا نموذج يصنف كل فاكهة على أنها 
تفاحة. لذلك. Bo‏ النموذج 98/ = ۰180/9 وبناءً على معیار الدقة لدينا نموذج دقيق للغاية. ومع 
ذلك. إذا استخدمنا هذا النموذج للتنبؤ بالثمار المستقبلية» فسوف نفشل. OY‏ هذا النموذج يمكن 
أن یتنا بفعة واحدة فقط. 

الحصول على صورة كاملة للنموذج. على سبيل المثال كيف يدرك البيانات وكيف يمكن 
التنبؤ بهاء يساهمفي فهمنا العميق للنموذج ويساعد على تحسينه. لذاء افترض أن لديك نموذجا 
يحقق Bo‏ ۰/90 فكيف يمكنك تحسينه؟ لتصحيح الخطأ يجب أن ندركه أولاً. وبالمثلء 
لتحسين النموذج» نحتاج إلى النظرفي LAS‏ عمل النموذج على مستوى أعمق. ومع ذلك لا يتم 
تحقيق ذلك بمجرد النظر إلى معيار الدقةء وبالتالي يتم النظرفي معاییر أخرى. معايير مثل الدقة 
(precision)‏ والاستدعاء (recall)‏ و _*F1-Score‏ أمثلة على هذه المعايير. 

یشیر الاستدعاء |لی قدرة النموذج على sell‏ بالحالات الايجابية من بين جمیع الایجاییات 
الحقيقية. من ناحية آخری. تقیس BU‏ جزء الایجابیات الحقيقية بين العینات التي يتوقع أن 
تکون إيجابية. قد لا تکون Bul‏ والاستدعاء وحدهما مناسبین لتقييم النموذح. لذلك يتم 
استخدام درجة ۰۳1 والتي تتضمن الدقة والاستدعاء وتشیر إلى مدی دقة المصنف. كلما زادت 
درجة 61ء كان آداء نموذجنا آفضل. طريقة حساب هذه المعاییر على النحو التالي: 

TP 
FN+TP 


_ TP 
7۔ مس‎ 


= الاستدعاء 
الدقة 


الاستدعاء ٭ الدقة 
X —————_—_‏ 2 = درجة 71 
الاستدعاء + الدقة 
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أدوات ومكتبات بايثون 


في هذا القسم. نقدم خطوات تثبيت SPython‏ نظام التشغيل Windows‏ نظرًا لعدم وجود 
Python zs‏ مضمنةفي نظام التشغيل Windows‏ يجب تثبیتها بشكل مستقل. يمكن تنزيل 
حزمة التثبیت من موقع Python‏ الرسمي (www. python.org)‏ بعد فتح الموقع الرسمي. 
ابحث عن شريط التنقل الذي يحتوي على زر تنزيل (download)‏ يوصي موقع الویب برابط 
افتراضیّاء حيث يمكنه تحديد نظام التشغيل الخاص بك والتوصية بأحدث إصدار من Python‏ 
. بعد الدخول إلى صفحة التنزيل الخاصة بالإصدار ذي الصلةء توجد مقدمة أساسية حول 
البيئة التي تريد تنزيلها. تم تصميم العديد من الإصدارات المختلفة بشكل أساسي لأنظمة التشغيل 
المختلفة. اعتمادًا على ما إذا كان النظام 32 بت أو 64 بت يمكنك تحديد ملفات مختلفة 
لتنزيلها.في الصفحة الجديدة التي تفتح. یمکننا العثور على إصدارات أخرى. Gly‏ ذلك أحدث 
إصدار تجريبى والإصدار المطلوب. إذا كنت تريد تثبيت الإصدار 64 بت 3.9.6( فانقر فوق 
الارتباط اا الصفحة الحالية. 

بعد تحميل «Python‏ حان وقت تثبيته. يعد تثبيت حزمة Windows‏ آمرا سهلاً للغاية. 
es Gus‏ تثبيت برامج Windows‏ الأخرى. نحتاج فقط إلى تحديد الخيار المناسب والنقر 
فوق الزر "التالي" لإكمال التثبيت. عندما تظهر الخيارات أثناء التثبیت. لا تتسرعفي الخطوة التالية. 
لأنه من أجل الراحةنی المستقبل عليك اختيار زر "Add Python 3.9.6 to PATH"‏ لمتغير 
(JI‏ يمكن تنفيذ أوامر Python‏ مباشرة وبسهولة على سطر أوامر Windows‏ المستقبل. 
بعد تحديد "Add Python 3.9.6 to PATH"‏ حدد التثبيت المطلوب. بالطبع. من الممكن 
Cal‏ تحديد موقع التثبیت. المثبتفي الدليل C‏ على محرك الأقراص 0 افتراضيًا. ومع ذلك من 
الأفضل معرفة ما هو دليل المستخدم حتى تتمكن من العثور على ملفات Python.exe‏ المثبتة 
عند الحاجة. اتبع التعليمات لتثبيت Python‏ بنجاح على نظامك. 


ابدأ مع بايثون 

هناك طريقتان لتشغيل بايثون: 

1) استخدام IDLE‏ الخاص ببايثون. إذا كنت ترغب في تشغيل Python‏ « يمكنك النقر فوق 
الزر "aul"‏ على سطح مكتب Windows‏ واكتب "IDLE"‏ في مربع "بحث" للدخول بسرعة 
إلى ."read-evaluate-print-loop"‏ بعد تشغيل البرنامج ۰ سترى صورة مثل الصورة 
آدناه: 
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4 3 صا 


IDLE‏ هو & تطویر (Integrated Development Environment) ibla‏ توفر محرر واجهة 

مستخدم رسومي -Python J‏ نيلو کش له aus‏ ومناسبّا dodo‏ تعلم لغة Python‏ يوفر 

IDLE‏ بيئة REPL‏ أي أنه يقرأ ویقیم ویحسب مدخلات المستخدم ()۰ ثم يطبع النتيجة ()ء 

وتظهر رسالة "حلقة" (في انتظار الإدخال التالي). 

2) باستخدام Windows Prompt‏ هناك طریقة خر ى لتشغيل Python‏ وهي تشغيل برامج 
3 من سطر أوامر Windows‏ للقيام بذلك c‏ اضغط على مفتاحي "13 + "Win‏ 
لفتح مربع الإشعارات . ثم أدخل "cmd"‏ المربع الذي يفتح. إذا قمت بتحديد "إضافة 
Python 3.x‏ إلى "PATH‏ عند تثبيت Python‏ . فقد تمت إضافة Python‏ المثبت 
إلى متغیر بيئة Windows‏ الآن بإدخال كلمة "python"‏ بعد ظهور ">>>" Python‏ . 
سیتم تشخیلها تجاح وستری صورة مثل الصورة نال 


يشير الاشعار ">>>" إلى أن التثبیت باستخدام Python‏ كان ناجحًا Python oly‏ قد Gels,‏ 


العمل. 


يجب عليك استخدام pip‏ لادارة مکتبات Pip. pip‏ هي أداة أساسية تتيح لك تنزيل الحزم 
التی تحتاجها وتحديثها وحذفها. بالاضافة إلى US‏ یمکن استخدامه للتحقق من التبعیات 
المناسة والتوافق بين الاصدارات. 
یتم شيك مکتبة باستخدام pip‏ سطر آوامر Windows‏ على سبیل المثال. افترض آننا 
نرید تثبیت مكتبة .NumPy‏ توضح الخطوات التالية كيفية تثبيت هذه المکنبة: 
* اضغط أولاً على مفتاحي "Win + R"‏ لفتح مربع الاشعارات ثم آدخل "cmd"‏ في المربع 
الذي یفتح. ثم أدخل الأمر التالي في سطر الأوامر: 


> pip install numpy 


٭ للتأكد من تثبيت المكتبة ء قم بتشغيل سطر أوامر Python‏ واكتب الأمر التالي:: 
* لن یتم عرض أي رسالة إذا تم تثبیت المكتبة بشكل صحيح. إذا لم يتم تثبيت المكتبة على 
جهاز الكمبيوتر الخاص بك » فسترى هذه الرسالة عن طريق تنفيذ الأمر أعلاه: 
Traceback (most recent call last):‏ 
File "<stdin>", line 1, in <module>‏ 


ImportError: No module named numpy 


Jupyter Notebook 


يعد Jupyter Notebook‏ أداة قوية بشكل لا يصدق لتطوير مشاريع التعلم الالي وتقديمها بشكل 
تفاعلي» والتي يمكن أن تتضمن نصا أو صورة أو صونًا أو فيديو بالإضافة إلى تنفيذ التعليمات 
البرمجية. يجمع Notebook‏ بين التعليمات البرمجية والمخرجات مع الرسوم التوضيحية والنص 
السردي والمعادلات الرياضية والوسائط الأخرىني مستند واحد. بمعنی آخرء بعد Notebook‏ 
مستندا واحداً يمكنك من خلاله تنفيذ التعليمات البرمجية وعرض المخرجات وإضافة الأوصاف 
والصيغ والرسوم التخطيطية لجعل عملك أكثر وضوحًا وقابلية للفهم وقابلية للتکرار والمشاركة. 
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لتثبيت Jupyter Notebook‏ يجب أن يكون لديك we Eee Python‏ حتى إذا كنت 
تخطط لاستخدام olUJupyter‏ البرمجة الأخرى» فإن بايثون هي الركيزة الأساسية ل 
Jupyter‏ لتثبيت Jupyter‏ ما عليك سوى كتابة الأمر التاليفي سطر أوامر Windows‏ 


> pip install jupyter 


لتشغيل Jupyter‏ افتح سطر الأوامر واكتب الأمر التالي فيه: 


بعد تنفيذ الأمر أأعلاہ سيتم تشغيل متصفح الويب الافتراضي الخاص بك باستخدام Jupyter‏ 
عند تشغيل Jupyter Notebook‏ انتبه إلى دليل سطر الأوامن حيث يصبح هذا الدليل هو 
الدليل الرئيسي الذي يظهر على الفور على Jupyter Notebook‏ وسيكون لديك حق الوصول 
إلى الملفات والادلة الفرعية الموجودة فيه فقط. قم بتشغيل أمر دفتر الملاحظات Jupyter‏ 
Notebook‏ وسترى صفحة مثل الصفحة أدناه: 

= jupyter JE 


uste 


ومع ذلك. فإن هذه الصفحة ليست Notebook‏ بعد وهي سطح المكتب الوحيد من 
Jupyter‏ المصمم لإدارة دفاتر ملاحظات Jupyter‏ الخاصة بك واستخدامها كدليل 
لاستکشاف وتحرير وإنشاء Notebook‏ الخاصة بك. تعتمد أجهزة الكمبيوتر المحمولة وأجهزة 
سطح المکتب Jupyter;s‏ على المستعرضء Jupytere Jes‏ بإعداد خادم Python‏ محلي 
لتوصيل هذه التطبيقات بمتصفح الويب الخاص بك. 

لإنشاء Notebook‏ جدید. انتقل إلى الدليل حيث تريد إنشاء اول Notebook‏ لك وانقر 
على زر القائمة المنسدلة "جدید" آعلی يمين سطح المكتب وحدد "3 "Python‏ 


1 | New vw 
lame v 
: hon 3 
Run! Text File k 
Folder M 
Terminal 
M 


بعد ذلك. سیتم فتح دفتر ملاحظاتك الأولفي علامة تبويب جديدة كما هو موضح أدناه: 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


^ jupyter Untitled autosaved) کبس‎ 


B+ ox» © B® ^ 9 bun N C 9 cos ~ - ے‎ ۷۱ 8 


إذا عدت إلى سطح مكتب Jupyter‏ « فسترى ملف Untitled. ipynb‏ الجديد وسترى نصا 
آخضر یخبرك أن دفتر ملاحظاتك قيد التشغيل. 
نختبر كيفية تنفيذ خلية بمثال كلاسيكي: اكتب print (Hello World!)‏ فی خلية وانقر على 
الزر |85 × انی شريط الأدوات آعلاه أو اضغط على Ctrl + Enter‏ ستكون النتيجة على هذا 
النحو: 
In [1]: print('Hello World!')‏ 


Hello World! 


Colab 

٠ Colaboratory‏ أو Colab‏ « عبارة عن منتج بحثي من Google‏ (خدمة سحابية) يسمح 
للمطورين بكتابة وتنفيذ كود Python‏ من خلال 

متصفحهم. يعد Google Colab‏ أداة رائعة لمهام التعلم 

العميق ويساعد على تطوير النماذج باستخدام مكتبات cola‏ 
متعددة مثل Keras‏ و Pytorch‏ و OpenCv‏ و 

7 والمزيد. Colab‏ عبارة عن دفتر ملاحظات يستند إلى Jupyter‏ ولا يحتاج إلى 
تثبيت ولديه إصدار مجاني رائع یوفر وصولاً مجانيًا إلى موارد الحوسبة من Google‏ مثل GPU‏ 
و .TPU‏ 


€*Colab لماذا‎ 


يعتبر Wks Colab‏ لكل شيء بدءًا من تحسين مهارات تشفير Python‏ إلى العمل مع مكتبات 
التعلم العميق . مثل PyTorch‏ و Keras‏ و TensorFlow‏ و .OpenCV‏ يمكنك إنشاء 
وتحميل وحفظ ومشاركة دفاتر الملاحظات في Colab‏ وتثبيت Google Drive‏ الخاص بك 
واستخدام كل ما قمت بتخزينه هناك « وتحميل دفاتر الملاحظات مباشرة من GitHub‏ « 
وتحميل ملفات Kaggle‏ ودفاتر الملاحظات الخاصة بك. والمشاركة والقيام بأي شيء آخر قد 
ترغب في القيام به. 

ميزة آخری رائعة في Google Colab‏ هي ميزة التعاون. إذاكنت تعمل مع مطورين متعددين 
في مشروع ماء فإن استخدام نوتبوك Google Colab‏ يعد آمرا رائعًا. تماما مثل التعاون في 
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مستند Google Docs‏ ۰ يمكنك البرمجة مع مبرمج متعدد باستخدام دفتر ملاحظات -Colab‏ 
بالإضافة إلى ذلك . يمكنك أيضًا مشاركة عملك المکتمل مع مطورين آخرين. 
باختصار » يمكن سرد الأسباب المختلفة لاستخدام Colab‏ على النحو التالي: 
e‏ مكتبات مثيتة مسبقا. 
٭ مخزنة فى السحابة, 
m e‏ 
هو استخدام GPU‏ و TPU‏ مجاني. 
ومع ذلك هناك سيناريوهان يجب عليك استخدام Jupyter Notebook‏ جھازك: 
1. تجنب Google Colab‏ إذاكنت تهتم بالخصوصية وترغب في الحفاظ على سرية 
اكوادك. 
2 إذاكان لديك جهاز قوي بشكل لا يصدق مع امكانية GPU‏ و .TPU‏ 


اعداد Google Colab‏ 
تعد عملية إعداد Colab‏ سهلة نسبیّا ويمكن إكمالها بالخطوات التالية على أي نوع من الأجهزة: 


1. قم بزيارة صفحة :Google Colab‏ 
http://colab.research.google.com‏ 
سينقلك تحميل الموقع أعلاه إلى صفحة الترحيب الخاصة ب Google Colaboratory‏ 
2 انقر فوق الزر تسجيل الدخول في الجزء العلوي الأيمن: 
8 =- مت ا 


Tex û Coty to Deve ede یھ‎ ^ 
| Table of contente x 


CO What is Colaboratory? 


۸ easier. Wanch Inoduction 10 


à static web page, but an terscties environment called » Colab netebook thar lets 


3. قم بتسجيل الدخول باستخدام حساب Gmail‏ الخاص بك. إذا لم يكن لديك حساب 
Gmail‏ 3 فقم بإنشاء حساب: 
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Google 
Signin 


4. بمجرد الانتهاء من تسجيل الدخول e‏ تكون Kal‏ لاستخدام .Google Colab‏ 
5 من خلال النقر فوق ملف --> دفتر ملاحظات جدید. يمكنك بسهولة إنشاء دفتر 
ملاحظات جديد من Colab‏ فی هذه الصفحة. 
comment 2% Share X E‏ ا UntitledO.ipynb‏ © 
File Edit View Insert Rur‏ 


+ Code + Text Connect > # Editing ^ 


<> (>) 


phi‏ التعلم العميق 

يعد تطوير شبكة عصبية عميقة وإعدادها لحل المشكلات مهمة صعبة للغاية. لأن العديد من 
القطع تحتاج إلى تجميعها Bs‏ لإنشاء تدفق منظم وتنظيمه من أجل تحقيق الأهداف التي نريد 
تحقيقها من خلال التعلم العميق. لذلك. يحتاج الباحثون أو علماء البيانات إلى إطار عمل لتمكين 
حلول أسهل وأسرع وأفضل جودة للتجارب والأبحاث. تساعد هذه الأطر الباحثين والمطورين 
على التركيز على المهام الأكثر al‏ بدلاً من استثمار المزيد من الوقتفي العمليات الأساسية. 
توفر أطر ومنصات التعلم العميق فكرة مجردة إلى حد ما عن المهام المعقدة مع وظائف بسيطة 
يمكن استخدامها من قبل الباحثين والمطورين كأداة لحل المشكلات الأكبر. 

باي تورج (PyTorch)‏ 


5 وهي مثالية‎ Torch هي بيئة تعلم آلي تعتمد على‎ PyTorch 
0 PyTorch بواسطة مختبر‎ PyTorch لتصميم الشبكة العصبية. تم تطوير‎ 
وتم إصداره في ینایر‎ Facebook أبحاث الذكاء الاصطناعي في‎ 
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6 كمكتبة مجانية ومفتوحة المصدر ويستخدم بشكل أساسي في رؤية الكمبيوتر والتعلم 
العميق وتطبيقات معالجة اللغة الطبيعية. ويدعم تطوير البرامج المستندة إلى السحابة. يعد تنفيذ 
شبكة عصبية في PyTorch‏ أسهل وأكثر سهولة من البيئات SSW‏ مع دعم وحدة المعالجة 
المركزية ووحدة معالجة الرسومات. يمكن تدريب الشبكات العصبية العميقة المعقدة 
بمجموعات بيانات كبيرة. 


المزايا والعيوب 


* سووله‌التعلم. 


* مرن وسریع. 


* سهولة تصحيح الاخطاء. 


tensorboard عدم وجود آدوات دعم الرسم و التوضیح مثل‎ m 


تنسرفلو (TensorFlow)‏ 
TensorFlow‏ هي واحدة من أشهر بيتات التعلم 
الآلي والتعلم العميق التي يستخدمها المطورون 
والباحثون. تم إطلاق TensorFlow‏ لأول مرة 
بواسطة فريق Google Brain‏ في عام 2007 

ويمكن تشغيله على وحدات المعالجة المركزية TensorF lov‏ 
ومسرعات الذكاء الاصطناعي المتخصصة. بما في ذلك وحدات معالجة الرسومات (GPU)‏ و 
.(TPU)‏ يتوفر TensorFlow‏ على أنظمة Linux‏ و macOS‏ و 64 Windows‏ بت 
ومنصات الحوسبة المحمولةء Ly‏ في ذلك Android‏ و iOS‏ يمكن نشر النماذج المدربة على 
TensorFlow‏ على أجهزة سطح المكتب والمتصفحات وحتى وحدات التحكم الدقيقة. هذا 
الدعم الشامل يجعل TensorFlow‏ فریدا وجاهرًا للانطلاق. سواء كنت تعمل على رؤية 
الكمبيوتر أو معالجة اللغة الطبيعية أو نماذج السلاسل الزمنية « TensorFlow ob‏ عبارة عن 
منصة تعلم آلي قوية وعالية الاداء. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


المزايا والعيوب 


* دعم ممتاز للرسوم البيانية الحسابیهًء JJ‏ من الحوسبة والتوضيح. 
TensorFlow ext yoy "‏ على alow gal‏ المثتب والمتصفحات وحتى وحدات gla‏ 


الدقيقة. 


" منحنى التعلم منحدر بسبب واجهات برمجِهً التطبيقات ۸۲1 منخفضة المستوى (صعوبة التعلم) . 


2 قديكون فهم بعض رسائل TensorFlow blas‏ أمرا صعباللفاية. 


(Keras) كيراس‎ 


Keras‏ هى واجهة برمجة تمكن علماء 

Keras s 
TensorFlow التعلم العميق‎ 

واستخدامها. Lg]‏ واجهة برمجة تطبیقات (APT)‏ ومساحة عمل تعلم عمیق مفتوحة المصدر 
مكتوبة بلغة Python‏ تعمل على TensorFlow‏ وتم دمجها الآن في النظام الأساسي. دعم 
Keras‏ سابقا العديد من (backend)‏ ولكن مع GUL‏ الإصدار 2.4.0 يونيو 2020 ۰ فهو 
مرتبط حصريًا ب .TensorFlow‏ تم تصمیم Keras‏ « باعتبارها API‏ عالية المستوی. لاجراء 
تجارب سريعة وسهلة تتطلب ترميرًا أقل من خيارات التعلم العميق الأخرى. الهدف هو تسريع 
تنفيذ نماذج التعلم الالي ولا سيما الشبكات العصبية العميقة. من خلال عملية تطوير "سرعة 
التكرار العالية". يمكن تشغيل طرازات Keras‏ على وحدة المعالجة المركزية أو وحدة معالجة 
الرسومات ونشرها على منصات متعددة بما في ذلك متصفحات الويب وأجهزة Android‏ و 
iOS‏ المحمولة. تعد Us Keras‏ من TensorFlow‏ و Py Torch‏ ولكنها تتميز ببنية بسيطة 
وهي أكثر قابلية للقراءة وموجزة وسهلة الاستخدام وقابلة للتطوير. يعد Keras‏ أكثر ملاءمة 
لمجموعات البيانات الصغيرة ويوصى به للمبتدثين نظرًا لتصميمه البسيط والمفهوم. 
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المزايا والعيوب 


Jic API *‏ المستوى. 
* سهله‌التعلم. 

5 سوولهانتاج النماذج. 
* سهل الاستخدام. 


* لايحتاج إلى خلفیه‌قویهفی التعلم العميق. 


* مناسب لمجموعة البيانات الصغيرة. 


" فى بعض الاحیان, بطیءمع 6۲0 . 


خلاصة الفصل 


٭ تشير البيانات إلى أجزاء مميزة من المعلومات التي عادة ما يتم تنسيقها وتخزينها لتناسب 
غرضًا محددا. 

٭ يتم تمثیل کل نقطة بيانات OE‏ بواسطة متجه سمةء ویمثل کل إدخال في المتجه سمة. 

٭ يمكن تصنيف البيانات على أنها مقروءة OT‏ أو قابلة للقراءة البشرية أو كليهما. 

* يعد التعلم الخاضع للإشراف أحد أكثر فروع التعلم JW‏ استخدامًا ء والذي يستخدم بيانات 
التدريب المصنفة لمساعدة النماذج على إجراء تنبؤات دقيقة. 

٭ في التصنیف. يتم تعريف الفئات مسبقًا وغالبًا ما يشار إليها على أنها أهداف أو علامات أو 
فئات. 

= الانحدار هو عملية إحصائية تجد BAe‏ ذات دلالة إحصائية بين المتغيرات التابعة 
والمستقلة. وکخوارزمیة تتنبأ برقم مستمر. 

٭ يحدث التعلم JW‏ غير الخاضع للإشراف في حالة عدم وجود تصنیف للبيانات. 
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اختبار 


قم بتسمية الطرق المختلفة للتعلم الالي ووصف الاختلافات والمزايا والعيوب لكل منها؟ 

ما المقصود بالتعميم في التعلم الآلي؟ 

ما هو الفرق بين المعاملات والمعاملات الفائقة؟ 

لماذا يتم تقسیم البيانات لتعليم خوارزمية التعلم الآلي؟ 

هل يمكن أن يكون النموذج الذي حقق دقة ۸98 في مجموعة التدریب ولكن بدقة 179 

في مجموعة الاختبار نموذجًا مقبولاً أم لا؟ إعطي سبباً. 

6 لنفترض أن نموذجا في مجموعة بيانات ذات فئتين مختلفتين وغیر متوازنتین للغاية يحقق 
دقة تصل إلى 99 ۰ فهل يمكننا القول أن هذا النموذج يتمتع بكفاءة عالية جد hy‏ على 
معيار الدقة فقط؟ اشرح السبب. 
لماذا يتم استخدام مجموعة بيانات التحقق من الصحة؟ 
ما الذي يسبب الضبط الزائد fOverfitting‏ 

9 إلى ماذا يشير التباين العالي والتحيز العالي؟ 


RON‏ صن 


+ 
Ium 
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المقدمة 


في هذا الفصل. نقدم بنية الشبكات العصبیة ونصف بالتفصیل كيف تعمل الخلايا العصبیة ثم 
نصف عملية التدريبفي الشبكات العصبية والمفاهيم الموجودةفي هذا المجال. هذه المفاهيم 
بمثابة أساس للفصول القادمة. 

الشبكات العصبية الاصطناعية (Artificial Neural Networks)‏ 
الشبكات العصبية الاصطناعية. أو باختصار ANN‏ هي مجموعة من نماذج التعلم الآلي 
المستوحاة بشكل عام من دراسات الجهاز العصبي المركزي للثدییات. بمعنى آخر إنها نموذج 
حسابي يحاكي LAS‏ عمل الخلايا العصبیةنی دماغ الإنسان. تتكون كل شبكة imas‏ اصطناعية 
من عدة "عصبونات" متصلة منظمةفي "طبقات". ترسل الخلايا العصبیةنی كل طبقة رسائل إلى 
الخلايا العصبیةنی الطبقة التالية. 


الشبكة العصبية الاصطناعية هی محاولة لمحاكاة شبكة من الخلايا العصبية GUI‏ 


تشكل دماغ الإنسان Gia‏ تتمكن ojmal‏ الكمبيوتر من التعلم واتخاذ القرارات بطرق 
تحتوي الشبكة العصبية الاصطناعية على طبقة إدخال وطبقة إخراج وطبقة مخفية واحدة أو 
أكثر مترابطة. تتكون الطبقة الأولى من الخلايا العصبية المدخلة. ترسل هذه الخلايا العصبية 
البيانات إلى طبقات أعمق. تتلقى کل طبقة بعد طبقة الادخال بدلاً من الادخال الأوليء إخراج 
الطبقة السابقة کمدخل. أخيرًاء ينتج آخر طبقة إخراج للنموذج. 

تحدد أمثلة التدريب بشكل مباشر المخرجات التى يجب إنشاؤها لكل إدخال ×. تحاول طبقة 
المخرجات حساب قيمة قريبة من ناتج معين لعينات تدريب مماثلة. ومع ذلك فإن سلوك 
الطبقات الداخلية لا یتأثر بشكل مباشر بعينات التدريب ۰ وخوارزمية التدريب هي التي تحدد 
كيفية عمل هذه الطبقات من خلال اتخاذ قراراتھم الخاصة لإنتاج المخرجات odi‏ ھت 
لذلك. فان وظيفة الطبقات الداخلية. بناء على المخرجات المرغوبة التي تم الحصول عليها من 
عينات التدریب. غير محددة بوضوح وتعمل كصندوق آسود. ومن ثم تسمى هذه الطبقات 
بالطیقات المخفية. 


لقد تعلم علماء الاعصاب الإدراكيون الكثير عن الدماغ البشري منذ أن طور علماء الكمبيوتر 
لأول مرة الشبكة العصبية الاصطناعية الأصلية. كان أحد الأشياء التى تعلموها أن أجزاء مختلفة 
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من الدماغ مسؤولة عن معالجة جوانب مختلفة من المعلومات. وهذه الأجزاء مرتبة بشكل هرمي. 
dS s‏ تدخل المدخلات إلى ¿Ll‏ وكل مستوى من الخلايا العصبية يوفر البصيرة. ثم يتم 
نقل المعلومات إلى المستوى الأعلى التالى. هذه هى الآلية التى تحاول ANN‏ تكرارها. 


لكي تتمكن الشبكات العصبية الاصطناعية من التعلم. يجب أن يكون لديها قدر هائل من 
البیانات. وهو ما یسمی مجموعة التدريب. عندما تريد تعلیم الشبكات العصبية الاصطناعية كيفية 
التمييز بين القط والکلب. یوفر البرنامج التعليمي GW‏ الصور التي تم وضع علامات عليها 
للکلاب لكي تبدأ الشبكةفي التعلم. عند تدريبه على قد رکبیر من البیانات. يحاول تصنيف البيانات 
المستقبلية إلى فثات مختلفة Fly‏ على ما يعتقد أنه يراه (أو يسمعه. اعتمادًا على مجموعة 
البيانات). خلال فترة التدریب. تتم مقارنة إخراج الجهاز مع الأوصاف البشرية (العلامات) لما 
يجب مشاهدته. إذا كانت متطابقة» فان النموذج يعمل بشكل جيد. إذا كان غير صحيح. فإنه 
يستخدم الانتشار الخلفي backpropagation‏ لضبط التعلم. 
بيرسيبترون (perceptron)‏ 
الخلايا العصبية هي عنصر أساسي في أي شبكة عصبية اصطناعية. يُطلق على أبسط نوع من 
نمذجة الخلايا العصبية اسم بيرسيبترون Perceptron‏ ۰ والذي يمكن أن يحتوي على عدد كبير 
من المدخلات بمخرج واحد. يوضح الشكل 1-3 مخططا لبيرسيبترون. يستخدم Perceptron‏ 
التعلم الخاضع للاشراف لتصنيف أو توقع المخرجات. يصنف المستشعر أحادي الطبقة البيانات 
عن طريق رسم حدود القرار (decision boundary)‏ باستخدام خط محدد. 


Bias التحيز‎ 
ib 


Lm 


S am: 
دالة التفعيل‎ 
للب المدغلات‎ 
شكل 1-3. بيرسيبترون‎ 


دعونا نلقي نظرة على كيفية عمل بيرسبترون. يعمل Perceptron‏ عن طريق التقاط بعض 
المدخلات العددية Cm‏ إلى جنب مع ما يعرف باسم الأوزان (weights)‏ والتحيزات او 


المخرجات = 1 
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الانحيازات (bias)‏ ثم يقوم بضرب هذه المدخلات بالأوزان المقابلة (المعروفة باسم مجموع 
الأو زان). ثم يتم إضافة هذا الناتج مع التحيز. تأخذ دالة التنشيط (Activation Function)‏ 


Perceptron‏ « لتحسين طريقة عمله. يتكون بیرسیبترون (الشكل 1-3) من أربعة أجزاء رئيسية: 
قيم الإدخال والأوزان والتحيز (الانحياز) وإجمالي الوزن ودالة التنشيط. افترض أن لدينا خلية 
عصيية وثلاثة مدخللات 1 222 X3‏ مضروبة في الأوزان W3 «W2 «Wy‏ على التوالي: 


C"— e 
22 المخرجات‎ 


کرٹ 
الفكرة بسيطة ء BIL‏ إلى القيمة العددیة للمدخلات والأوزانء فهناك دالة داخل الخلية العصبية 
تنتج مخرجات. الآن السؤال ما هي هذه الدالة؟ هذه الدالة تعمل كالاتي: 


y — 231۸۷ T 2۷2 T X3W3 


هذه الدالة تسمی مجموع الاوزان . لأنها مجموع الأوزان والمدخلات. هذا جید حتى OW‏ لکن 
إذا أردنا أن تكون المخرجات في نطاق معین. على سبيل المثال من 0 إلى 1 ۰ فماذا يجب أن 
تفعل؟! يمكدنا القیام بذلك باستخدام ما یسمی بدالة التنشيط (دالة التفعیل). دالة التنشیط هي 
دالة تحول |ٍدخالا معيئًا (في هذه الحالة ء مجموع الاوزان) إلى إخراج محدد Eby c‏ على مجموعة 
من القواعد: 


لدينا الآن کل ما نحتاجه تقريبًا Perceptron «UJ‏ آخر شيء هو التحيز. التحيز هو معامل إضافي 
في الشبكة العصبية یستخدم لتنظيم الإخراج Ge‏ إلى جنب مع الوزن الإجمالي للمدخلات 
العصبية. بالإضافة إلى ذلك. يسمح مقدار التحيز لدالة التنشيط بالتغییر إلى اليمين أو اليسار. 
أسهل طريقة لفهم التحيز من خلال الثابت c‏ هي دالة خطية: 
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y =mx +c 
یتیح لك ذلك التمریر لأعلى ولأسفل في السطر لمطابقة التنبؤ مع البيانات بشكل أفضل. إذاكان‎ 
الثابت > غير موجود . سيمر الخط من خلال الأصل (0 ۰ 0) وسيكون لديك تطابق أضعف.‎ 
ومن ثم » فان التحيزات تسمح بتعلم المزيد والمزید من الاختلافات في الأوزان. باختصار » تعني‎ 
لمساحة الادخال إلى الأوزان‎ aS التحيزات تضيف تمثيلًا أكثر‎ of الاختلافات الإضافية‎ 
المستفادة من النموذج. لذلك. يتم حساب المعادلة النھائیة للخلایا العصبية على النحو التالي:‎ 


التحیز + (المدخل + الوزن) )= المخرج 


المخرجات | سود 


=1 


= 


كما ذکرنا سابقا . یتم استخدام Perceptron‏ في التصنيف الثنائي. bea‏ نفكر في بیرسیبترون 
بسيط ومع مثال بسيط نفهم بشكل أفضل كيف يعمل في تصنيف البيانات الثنائية. في هذا 
البيرسبترون لدينا مدخلان 1× و Xa‏ مضروبا في الأوزان Wy‏ و Wa‏ على التوالي ولدينا Cast‏ 


Ux 


لنقم Cal‏ بإنشاء رسم تخطيطي بمجموعتين مختلفتين من البيانات ممثلة بأشكال دائرية 
ومستطيلة: 
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لنفترض أن هدفنا كان فصل هذه البيانات بحيث يكون هناك تمییز بين الدائرة والمستطيل. يمكن 
لبیرسبترون أن تنشئ حدود قرار لمصنف ثنائي. حيث تكون الحدود هي قرار مناطق المساحة 
على الرسم البياني الذي يفصل بين نقاط البيانات المختلفة. لفهم هذا بشكل أفضلء دعنا نتعامل 
مع الدالة قليلاً. يمكننا أن نقول: 


Wy = 0.5 
W2 = 0.5 
b=0 


IF‏ لذلك ء ستكون دالة perceptron‏ على النحو التالي: 
0.5x4 + 0.5 = 0‏ 


افترض أن دالة التتشیط فى هذه الحال هی دالة خطوية ib... (step function)‏ تنتج 0 آو 1. 
تشير دالة perceptron‏ بعد ذلك إلى أشكال المستطيل بمقدار 1 وأشكال الدائرة بمقدار 0. 
بعبارات أخرى: 
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n if 0.5x, 4-0.5x; > 0‏ 
if 0.5x4 + 0.5x2 > 0‏ ,0 
والدوائر. 
خوارزمية التعلم بيرسبترون 
تعلم بيرسبترون عملية بسيطة Goms‏ هدفنا هو الحصول على مجموعة من الأوزان التي تصنف 
بدقة کل حالة في مجموعة التدريب الخاصة بنا. من أجل تدريب بیرسبترون . DIU‏ ما نقوم بتغذية 
الشبكة ببيانات التدريب الخاصة بنا عدة مرات. فی کل مرة ترى الشبكة مجموعة كاملة من بيانات 
التدریب ‏ نقول إن دورة (epoch)‏ قد مرت. الدورة هي معامل يحددها المستخدم قبل التدريب. 
يمكن تلخيص شبيه الكود لخوارزمية تعلم Perceptron‏ (الخوارزمية 1.3) كالاتي: 


یتم "التعلم "الحقيقيني الخطوتين (2.ب) و (2.ج)» أولاً نقوم بتمرير متجه الميزة عبر الشبکة. 
نحصل على ناتج المنتج الداخلي بأوزان ۷۷ء ونحصل على الناتج Ly,‏ بعد ذلك. يتم تمرير هذه 
القيمة للدالة الخطوية التي ترجع 1 إذاكانت 0 > x‏ والا 0. الآن نحتاج إلى تحديث متجه الوزن 
لدينا للتحركفي اتجاه آقرب إلى التصنيف الصحيح للبيانات. تتم إدارة هذه العملية عن طريق 
تحديث متجه الوزن بموجب قانون دلتاني الخطوة (2.ج). 

يحدد التعبير (d; — yj)‏ ما إذا كان تصنيف المخرجات صحيحًا أم لا. إذا كان التصنيف 
صحيحًاء فسيكون هذا الاختلاف صفراً. خلاف ذلك. سيكون الاختلاف موجبًا أو سالبّاء مما 
يمنحنا اتجاهًا تظهر فيه الأوزان (مما یقربنافی النهاية من التصنيف الصحیح). ثم نضرب 
old - yj)‏ ز× ء مما يقربنا من التصنيف الصحيح. قيمة » هي معدل التعلم ) learning‏ 
(rate‏ لدينا وتتحکمئی كبر (أو صغر) الخطوة. من المهم جدا تعيين هذه القيمة بشكل صحيح. 
على الرغم من أن القيمة الكبيرة ل » تسمح L‏ باتخاذ خطوةني الاتجاه الصحیح. إلا أنه لا يزال 
بإمكاننا الوصول إلينا بسهولة من خلال التحسين المحلي أو العالمي.في المقابلء تسمح لنا كمية 
صغيرة من © باتخاذ خطوات صغيرةفي الاتجاه الصحيح وتضمن أننا لا نتجاوز الحد الأمثل 
المحلي أو العالمي. ومع ذلك. قد تستغرق هذه الخطوات الصغيرة وقتا طويلاً حتى يتقارب 
تعلمنا. آخیرّا؛ نضيف متجه الوزن السابقفي الوقت t‏ ۰ )£( رس c‏ والذي يكمل عملية الانتقال نحو 
التصنیف الصحيح. إذا وجدت هذا الطريق التعليمي محيرًا بعض الشيء فلا تقلق. 

يسمح باستمرار عملية تعلم بیرسیبترون حتى يتم تصنيف جميع عينات التدريب بشكل 
صحيح أو الوصول إلى عدد محدد مسبقا (محدد من قبل المستخدم) من الدورات. يتم ضمان 
الإنهاء إذا كانت ۵ صغيرة بدرجة كافية وكانت بيانات التدريب قابلة للفصل خطيًا. بمعنى آخره 
مع الافتراضات المناسبة. يمكن إظهار أن التعلمني بيرسيبترون سوف يتقارب مع الأوزان 
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الصحيحة من خلال تكرار الخوارزمية الخاصة به. أي أن تعلم الشبكة سيؤدي إلى تقدير الأوزان 
التي تمكن الشبكة من إنتاج القيم الصحيحة عند المخرجات. 
خوارزمية lci‏ بيرسيبترون 


1. ابداً متجه الوزن W‏ بقيم عشوائية صغيرة. 
2 حتى يتقارب البيرسيبترون: 
أ. قم بعمل حلقة على كل متجه سمة ز× وقم بتسمية الفئة الفعلية dj‏ في 
ب. خذ × وقم بتمريرها عبر الشبكة وحساب قيمة الإخراج: 
yj = f (w6). x;)‏ 
ج. قم بتحديث الاوزان w‏ 
W: wi(t + 1) = wi(t) + a(d; = Yj )X; i‏ 


السوال هو ماذا يحدث إذا كانت بیاناتنا غير قابلة للفصل خطيًا أو لدينا اختيار ضعيف فی ؟ 
هل سيستمر التدريب إلى أجل غير مسمى؟ فى هذه الحالة ء لا. dole‏ نتوقف بعد انقضاء عدد 
معين من الفترات أو إذا لم يتغير عدد التصنیفات الخاطئة في عدد كبير من الفترات (مما يشير 
إلى أن البيانات لا يمكن فصلها خطيًا). 

تنفيذ بيرسيبترون في باینون 

الآن بعد أن bwj‏ خوارزمية Perceptron‏ ء دعنا Jes‏ الخوارزمية فی lia) Python‏ التطبيق 
هو فقط لتعريفك بوظيفة perceptron‏ والعملیة التعليمية الموجودة فى المکتبات . لذلك إذا 
بدت صعبة بعض الشيء بالنسبة لك فلا تقلق, OY‏ يتم استخدام المكتبات والأطر فقط في 
المستقبل وليس هناك حاجة لبرمجة هذه العناصر). أدخل الرمز التالى أولاً: 


# import the necessary packages 
import numpy as np 


class Perceptron: 
def | init | (self, N, alpha-0.1): 
# initialize the weight matrix and store the learning rate 


self.W = np.random.randn(N + 1) / np.sqrt(N) 
self.alpha - alpha 


يحدد السطر 5 منشئ فئة Perceptron‏ والذي يقبل معامل مطلوب ثم معامل اختياري: 
* عدد الأعمدة فى متجهات ميزة الإدخال. 
alpha *‏ معدل التعلم لدينا لخوارزمية .Perceptron‏ اضبط هذه القيمة على 0.1 
افتراضيًا. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


في السطر 7 تم أخذ عينات من مصفوفة الوزن W‏ بقيم عشوائية من التوزيع الطبيعي (غاوسي) 

بمتوسط صفر وتباين الوحدة. تحتوي مصفوفة الوزن على مدخلات 1+ «IN‏ واحدة لكل من 

مدخلات IN‏ على متجه الميزة . بالإضافة إلى إدخال واحد للتحيز. قم بقسمة W‏ على الجذر 

التربيعي لعدد المدخلات . وهي تقنية شائعة لقياس مصفوفة الوزن تؤدي إلى تقارب أسرع. 
بعد ذلك » Le‏ نحدد الدالة الخطوية: 


def step(self, x): 
return 1 if x > 0 else @ 


لتدريب Perceptron‏ نحدد دالة تسمى fit‏ إذا كانت لديك خبرة سابقة في التعلم الآلي ومكتبة 
scikit-Learn‏ » فأنت تعلم أن تسمية هذه الدالة للتعليم بهذا الاسم أمر شائع: 


def fit(self, X, y, epochs=10): 
X = np.c [X, np.ones((X.shape[0]))] 


تتطلب طريقة fit‏ معاملين إلزاميتن» متبوعة بمعامل اختياري: قيمة X‏ هي بيانات التدريب 
الخاصة با والمعدير هو تسمیات نظ المخرجات (آي ما يجب أن نعي به شبکتنا). eel‏ لديا 
معامل الدورة التدريبية . وهي ode‏ الدورات التي سيقوم Perceptron‏ بتعليمها. يطبق السطر 
الأخير من الکود التحیز عن طریق إدخال عمود من الوحدات في بیانات التدریب ‏ مما یسمح 
لنا بالنظر إلى التحیز کمعامل قابل للتدریب مباشرة داخل مصفوفة الوزن. ON‏ دعنا نراجع عملية 
التدریب الفعلية: 


# loop over the desired number of epochs 
for epoch in np.arange(@, epochs): 

# loop over each individual data point 

for (x, target) in zip(X, y): 

take the dot product between the input features 
and the weight matrix, then pass this value 
through the step function to obtain the prediction 
= self.step(np.dot(x, self.W)) 
only perform a weight update if our prediction 
does not match the target 
f p != target: 
# determine the error 

error = p - target 
# update the weight matrix 

self.W += -self.alpha * error * x 


RG HHH‏ عد .نم 


VI‏ نستخدم حلقة ونشغلها لعدد من الفترات. لكل فترة . نستخدم Cal‏ الإخراج للحلقة في 
كل نقطة بيانات منفصلة ×. بعد ذلك . يتم أخذ حاصل ضرب الضرب الداخلي بين خصائص 
الإدخال × ومصفوفة الوزن W‏ لتمرير الإخراج من خلال الدالة الخطوية وللتئبؤ بواسطة 
بيرسيبترون. سنقوم بتحديث الوزن فقط إذا كانت توقعاتنا لا تتطابق مع الهدف. إذا كان الأمر 
كذلك . نحدد الخطأ بحساب العلامة (موجبة أو سالبة). 


الفصل الثالت: الشبكات العصبية امامية التغذية 


يتم تحديث مصفوفة الوزن في السطر الأخير من الکود. حيث نتخذ خطوة نحو التصنيف 
الصحيح. خلال عدد من الدورات « يمكن ل Perceptron‏ أن يتعلم الأنماط فى البيانات 
الأساسية ويغير قيم مصفوفة الوزن حتى نتمکن من تصنيف عينات الإدخال لدينا بشکل صحيح. 
الدالة الأخيرة التي نحتاج إلى تحديدها هي predict gol‏ وكما يوحي الاسم. يتم استخدامها 
للتنبؤ بتسميات الفتات لمجموعات بيانات الإدخال: 
def predict(self, X, addBias=True):‏ 
X = np.atleast 2d(X)‏ 
if addBias:‏ 


X = np.c [X, np.onesC(X.shape[012)1 
return self.step(np.dot(X, self.W)) 


تتطلب طريقة التنبؤ predict‏ الخاصة بنا مجموعة من بيانات الإدخال × التي يجب تصنیفها. 


يتم أيضًا إجراء فحص على الكود لمعرفة ما إذاكان يجب إضافة عمود التحيز. 
الآن بعد أن تم تنفيذ Perceptron‏ الخاص بناء Ue»‏ نحاول تطبيقه على مجموعة البيانات 
البتية AND)‏ و OR‏ و (XOR‏ ونرى كيف يعمل. 


نختبرها أولاً في مجموعة البیانات "OR"‏ للقيام بذلك , أدخل الرمز التالي: 


# construct the OR dataset 

X = np.array([[0, 0], [@, 1], [1, 01, [1, 11D 
y = 0۵۰۵۲۲۵۷ )]۲101, [1], [1], [11D 

# define our perceptron and train it 
print("L[INFO] training perceptron...") 

p = Perceptron(X.shape[1], alpha=0.1) 

p.fit(X, y, epochs-20) 


يحدد السطران 2 و 3 مجموعة البیانات "ORT‏ يقوم السطران 6 و 7 بتدريبنا بمعدل تعلم a‏ 
0.1 = :ه في 20 دورة تدريبية. 


بعد تدريب Perceptron‏ الخاص بناء نحتاج إلى تقييمه على البيانات للتأكد من أنه قد تعلم 
بالفعل دالة :OR‏ 


# now that our perceptron is trained we can evaluate it 
print("[INFO] testing perceptron...") 
# now that our network is trained, loop over the data points 
for (x, target) in zip(X, y): 

# make a prediction on the data point and display the result 

pred = p.predict(x) 

print("LINFO] data={}, ground-truth={}, pred={}".format( 

x, target[0], pred)) 


الكود النهائي على النحو التالي: 


import numpy as np 
class Perceptron: 
def | init | (self, N, alpha=0.1): 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


self.W = np.random.randn(N + 1) / np.sqrt(N) 
self.alpha = alpha 


def step(self, x): 
return 1 if x > 0 else 0 


def fit(self, X, y, epochs=10): 
X = np.c_[X, np.ones((X.shape[0]))] 
for epoch in np.arange(@, epochs): 
for (x, target) in zip(X, y): 
p = self.step(np.dot(x, self.W)) 
if p != target: 
error - p - target 
self.W += -self.alpha * error * x 
def predict(self, X, addBias-True): 
X = np.atleast 2d(X) 
if addBias: 
X = np.c [X, np.ones((X.shape[01)) ] 
return self.step(np.dot(X, self.W)) 


np.array([[0, 01, [@, 11, [1, 01, [1, 11D 
np.arrayCEE0], [11], [1], [11D 

define our perceptron and train it 
print("LINFO] training perceptron...") 

p = Perceptron(X.shape[1], alpha-0.1) 

p.fit(X, y, epochs-20) 


۱۱ o 


TE x 


print("L[INFO] testing perceptron...") 


for (x, target) in zip(X, y): 
pred = p.predict(x) 
print("[INFO] data={}, ground-truth={}, pred={}".format( 
x, target[0], pred)) 


بعد تنفيذ الكود أعلاه يتم عرض المخرجات على النحو التالي: 


[INFO] training perceptron... 
[INFO] testing perceptron... 
[INFO] data=[@ 0], ground-truth-0, pred=0 
[INFO] data=[@ 1], ground-truth=1, pred=1 
[INFO] data=[1 0], ground-truth=1, pred=1 
[INFO] data=[1 1], ground-truth=1, pred=1 


كما يتضح > کان Perceptron‏ لدينا قادرًا على تعلم عملية .OR‏ عامل التشغيل Xo =J OR‏ 
0 و0 = x,‏ هو صفر . وجميع المركبات الأخرى متشابهة. 


الآن دعنا ننتقل إلى دالة AND‏ آدخل الكود التالى: 


np.arrayCE[0, 6], [0, 1], E1, 61, ET, TID 

= np.array([[01, [0], [0], [11D 

define our perceptron and train it 

print("L[INFO] training perceptron...") 

p = Perceptron(X.shape[1], alpha-0.1) 

p.fit(X, y, epochs-20) 

# now that our perceptron is trained we can evaluate it 


TEM x 


الفصل الثالت: الشبكات العصبية امامية التغذية 


print("LINFO] testing perceptron...") 
# now that our network is trained, loop over the data points 
for (x, target) in zip(X, y): 

# make a prediction on the data point and display the result 

# to our console 

pred = p.predict(x) 

print("LINFO] data={}, ground-truth={}, pred={}".format( 

x, target[0], pred)) 


لاحظ أن سطور التعليمات البرمجية الوحيدة التي تم تغييرها هنا هي السطرين 1 و2 . حيث 
حددنا مجموعة البيانات AND‏ بدلاً من مجموعة البيانات OR‏ 


بعد تنفيذ الكود السابق . يتم عرض الإخراج على النحو التالي: 


[INFO] training perceptron... 
[INFO] testing perceptron... 
[INFO] data=[@ 0], ground-truth-0, pred=0 
[INFO] data=[@ 1], ground-truth-0, pred=0 
[INFO] data-[1 0], ground-truth-0, pred=0 
[INFO] data=[1 1], ground-truth=1, pred=1 


وقد لوحظ أنه مرة آخری كان Perceptron‏ لدینا قادرا على نمذجة دالة AND‏ بشكل صحيح. 
يكون عامل التشغیل AND‏ صالحا ki‏ عندما يكو نكل من 1 = و و1 = × ويكون صفرا 
لجميع ترکیبات AND‏ الأخرى. 

أخيرًا > دعنا نلقي نظرة على وظيفة XOR‏ غير الخطية باستخدام -perceptron‏ أدخل الكود 
في الأسفل: 


np.array([[@, 01, [0, 1], [1, 01, ]1, 11D 
np.array({[@J, £1], £1], [01D 
define our perceptron and train it 
print("L[INFO] training perceptron...") 
p = Perceptron(X.shape[1], alpha-0.1) 
p.fit(X, y, epochs-20) 
# now that our perceptron is trained we can evaluate it 
print("L[INFO] testing perceptron...") 
# now that our network is trained, loop over the data points 
for (x, target) in zip(X, y): 
# make a prediction on the data point and display the result 
pred = p.predict(x) 
print("LINFO] data={}, ground-truth={}, pred={}".format( 
x, target[0], pred)) 


X 
y 
# 


من خلال تنفيذ الكود أعلاه. تم الحصول على الإخراج: 


[INFO] training perceptron... 
[INFO] testing perceptron... 
[INFO] data-[0 0], ground-truth-0, pred=1 
[INFO] data-[0 1], ground-truth=1, pred=1 
[INFO] data-[1 0], ground-truth-1, pred=0 
[INFO] data=[1 1], ground-truth-0, pred=0 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


لنقم بتشغيل الكود أعلاه مرة أخرى. كان الإخراج هذه المرة على النحو التالي: 
[INFO] training perceptron...‏ 
[INFO] testing perceptron...‏ 
LINFO] data=[@ 0], ground-truth-0, pred=0‏ 
LINFO] data=[@ 1], ground-truth-1, pred=0‏ 
LINFO] data-[1 0], ground-truth=1, pred=0‏ 
[INFO] data=[1 1], ground-truth-0, pred=1‏ 


لا يهم ode‏ المرات التي تجري فيها هذه التجربة بمعدلات تعلم مختلفة أو طرق تهيئة مختلفة e‏ 
حیث لا يمكنك آیدا نمذجة دالة XOR‏ باستخدام Perceptron‏ أحادي الطبقة. 


بدلاً من AUS‏ ما نحتاجه هو المزيد من الطبقات ذات دوال التنشيط غير الخطية. 


بيرسيبترون متعدد الطبقات (الشبكة العصبية امامية التغذية) 

كما هو مذكور. فان التقييد الرئيسي للشبكات العصبية بيرسيبترون هو عدم القدرة على تصنيف 
البيانات التي لا يمكن فصلها خطيًا. يعد استخدام طبقة مخفيةفي هيكلية الشبكة بمثابة هروب 
من هذا التقييد. بمعنى آخر. لحل هذا التقیید. يمكن استخدام الطبقة المخفية بين طبقات 
الادخال والاخراج. ومن الأمثلة على هذه الشبکات. والتي تعتبر Cash‏ أساس التعلم العمیق 
شبكات بيرسيبترون متعدد الطبقات .(MultilLayer Perceptron)‏ أو باختصار MLP‏ ء 
والتى تسمى Cal‏ الشبكات العصبية أمامية التغذية (Feedforward Neural Network)‏ 
سام الشبكات واحدة من أكثر الشبكات استخدامَني التعلم العميق نظرًا لتوافقها مع مجموعة 
متنوعة من المشكلات. لأنه لا يوجد حد لإدخاله سواء كانت البيانات صورة أو نص أو فيديو. 


المخرجات 


الطبقة المخفية الثانية L‏ 1 الطبقة المخفية الاولی 


الشكل 2-3. شبكة عصبية ذات طبقتين مخفيتين 


الفصل الثالت: الشبكات العصبية امامية التغذية 


في MLP‏ تتدفق البياناتفي الاتجاه الأمامي من طبقة الادخال إلى الاخراج.في هذا النوع من 
الشبکات. بالانتقال من طبقة إلى آخری. يتم حساب مجموع الاوزان لمجموعة الخلايا العصبية 
في الطبقة السابقة ونقلها إلى طبقة أخرى عن طريق تطبيق دالة تنشيط غير خطية. سبب تسمية 
التغذية الامامية (Feed forward)‏ هو عدم وجود اتصال تغذية مرتدة يتم من خلاله اعتبار 
مخرجات النموذج مرة أخرى كمدخلات للنموذج (القیم تنتقل فقط من الإدخال إلى الطبقات 
المخفية ثم إلى الاخراج ولا توجد قيم يتم إرجاعها إلى الطبقات السابقة. وعلی النقيض من 
ذلك. تسمح شبكة العودة بإرجاع القيم مرة أخرى). بمعنى آخر.في الشبكة العصبية أمامية التغذيق 
تتدفق عمليات التنشیطنی الشبكة دائمًا إلى الأمام عبر سلسلة من الطبقات. هذه الشبكة هي Ua‏ 
شبكة متصلة بالكامل «(Fully Connected)‏ لأن کل خلية من الخلايا العصبية للشبكة مترابطة 
بطريقة تستقبل مدخلات من جميع الخلايا العصبیةئی الطبقة السابقة وتنقل تنشيط مخرجاتها 
إلى جميع الخلایا العصبيةني الطبقة التالية. يوضح الشكل 2-3 مخططً لشبكة عصبية مع طبقتين 

عندما تقوم الشبكة بمعالجة مجموعة من المدخلات الخارجية. يتم تسليم المدخلات إلى 
الشبكة من خلال الخلايا العصبيةفي طبقة الادخال. هذا يجعل الخلایا العصبيةفي الطبقة التالية 
تنتج إشارات تنشيط استجابة لهذه المدخلات. وتتدفق هذه التنشيطات عبر الشبكة لتصل إلى 
طبقة الإخراج. تنشيط الخلايا العصبيةفي هذه الطبقة هو استجابة الشبكة للمدخلات والمخرجات 
النهائية. الطبقات الداخلية للشبكة التي ليست طبقة الإدخال ولا طبقة الإخراج تسمى الطبقات 
المخفية. 

عمق الشبكة العصبية يساوي عدد الطبقات المخفية بالإضافة إلى الطبقة الناتجة. لذلك » 
تتكون الشبكة في الشكل 2-3 من ثلاث طبقات. عدد الطبقات المطلوبة للنظر في عمق الشبكة 
هو سؤال مفتوح. ومع ذلك. فقد ثبت أن الشبكة التي تحتوي على ثلاث طبقات من الخلايا 
العصبية (أي طبقتان مخفيتان وطبقة إخراج واحدة) يمكنها تقريب أي دالة إلى الدقة المطلوبة. 
لذلك . نحدد هنا الحد الأدنى لعدد الطبقات المخفية المطلوبة لاعتبار الشبكة عمیقة طبقتين. 
بموجب هذا التعریف. يتم وصف الشبكة في الشكل 2-3 على أنها شبكة عميقة. ومع ذلك › 
تحتوي معظم الشبكات العميقة على AST‏ من طبقتين مخفيتين. اليوم » تحتوي بعض الشبكات 
العميقة على عشرات أو حتى متات الطبقات. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


يتم تدريب الخلايا العصبیۂ فى MLP‏ باستخدام خوارزمية تعلم الانتشار الخلفی. تعمل 


lios MLPs‏ مقربات عالمیه (ico) (universal approximators)‏ آخر. يمكنهم 
تقريب أى ala‏ مستمرة ويمكنهم حل المشكلات التى لا يمكن فصلها خطیا: 


.. me 1 ہہ 1 1 وتدریب 1 ^ : ات‎ o ۱ m 1 اکل‎ ^ JI 
الهدف من عملية تعلم الشبكة العصبية هو العثور على مجموعة من قيم الاوزان التي تجعل ناتج‎ 
الشبكة العصبية مطابقا قدر الإمكان مع القيم المستهدفة الفعلية. هناك العديد من المشکلاتنی‎ 

تصميم وتدريب شبكة Perceptron‏ متعدد الطبقات: 


تحديد عدد الطبقات المخفية المطلوب استخدامها في الشبكة. 

قرار استخدام خلايا عصبية متعددة في كل طبقة مخفية. يعد عدد الخلايا العصبية في 
الطبقة (الطبقات) المخفية أحد أهم القرارات في تصميم الشبكة العصبية. إذا لم يتم 
استخدام عدد كاف من الخلايا العصبية. فلن تكون الشبكة قادرة على نمذجة البيانات 
المعقدة وسيكون التطابق الناتج ضعیفا. إذا تم استخدام عدد كبير جدا من الخلایا 
العصبيةء فقد يكون وقت التدريب طویلا جد . والأسوأ من ذلك . قد تؤدي الشبكة إلى 
الضبط الزائد. عند حدوث الضبط الزائد (Overfitting)‏ . تبداً الشبكة في وضع نموذج 
للتشوهات العشوائيةفي البيانات. والنتيجة هي أن النموذج يتلاءم جيدا مع بيانات التدريب 
> ولكنه يعمم بشكل ضعيف على البيانات الجديدة وغير المرئية. يجب استخدام التحقق 
من الصحة لاختبار هذا. 

العثور على حل عالمی أمثل يتجنب الحدود الدنيا المحلية. قد تحتوي الشبكة العصبية 
النموذجية على cotta‏ الأوزان . والتي يجب إيجاد قيمها لإنتاج الحل الأمثل. إذا كانت 
الشبكات العصبية عبارة عن نماذج خطية (مثل الانحدار الخطي) . فان العثور على 
مجموعة الأوزان المثلى ليس بالأمر الصعب. لکن ناتج الشبكة العصبية كدالة للمدخلات 
غالبا ما يكون غير خطي ALU‏ هذا يعقد عملية التحسين. إذا قمت برسم الخطأ كدالة 
للأوزان » فمن المحتمل أن ترى سطحا غير مستو به العديد من الحدود الدنيا المحلية 
على النحو التالي: 


هذه الصورة بسيطة للغاية لأنها تعرض فقط قيمة وزن واحد (على المحور الأفقي). 


الفصل الثالت: الشبكات العصبية امامية التغذية 


* التقارب إلى الحل الأمثل في فترة زمنية معقولة. 
* التحقق من صحة الشبكة العصبية لاختبار الضبط الزائد. 


۱ T ^ e. JI Gla 


دالة التنشيط مهمة Gide‏ التعلم العميق. الغرض من دوال التنشيط هو الحصول على رقم من 
الإدخال وحساب سلسلة من العمليات الحسابية لإنتاج ناتج بين 0 و 1 أو -1 إلى 1. وظيفة 
التنشیطنی كل خلية imas‏ اصطناعية. إذا وصلت الإشارات المستلمة إلى الحد الأدنی. فإنها 
ترسل إشارات الاخراج إلى المستوى التالي. ببساطة. تقرر دالة التنشيط ما إذا كان يجب تنشيط 
الخلية العصبية ام لا. 

في التعلم العمیق الشبكة العصبية بدون دالة التنشيط هي مجرد نموذج انحدار خطي بسيط!؟ 
oY‏ هذه الدوال تؤدینی الواقع حسابات غير خطية عند مدخلات الشبكة العصبية. مما يمكنها 
من التعلم وتنفيذ مهام أكثر تعقیدا. لذلك. تعد دراسة الأنواع المختلفة وتحليل مزايا وعيوب كل 
دالة تنشيط ضرورية لتحديد النوع المناسب لدالة التنشيط التي يمكن أن توفر عدم الخطية والدقة 
في نموذج شبكة عصبية معين. Cad‏ بسبب مشكلة تلاشي الانحدار الاشتقاقي ( Vanishing‏ 
«(gradient‏ التى سنتحدث عنها GY‏ يعد إعداد دالة التنشيط الصحيحة للشبكة آمرا مهما 
للغاية. ۱ 

لا يمكن أن تكون دالة التنشيط المستخدمةفي الشبكات العميقة أي دالةء ولكن يجب أن يكون 
لها خصائص معينة. من السمات المهمة لدالة التنشيط أنه يجب أن تكون مشتقة. تتعلم الشبكة 
من الأخطاء المحسوبةفي طبقة الإخراج. تؤدي دالة تنشيط مشتقة لتحسين الانتشار الخلفي 
(propagating backwards)‏ لحساب تدرجات الخطاً فيما يتعلق بالأوزان ثم تحسين الأوزان 
باستخدام الانحدار الاشتقاقي (أو أي تقنية تحسين أخرى لتقليل الأخطاء). 


لماذا دوال التنشيط غير الخطية ضرورية؟ 


تقدم دالة التنشیط خطوة إضافيةفي کل طبقة أثناء الانتشار الأمامي «(forward propagation)‏ 
لكن الأمر يستحق الحساب. لنفترض أن لدينا شبكة عصبية تعمل بدون دوال التنشيط.في هذه 
الحالة. تقوم كل خلية عصبية بتحويل خطي على المدخلات باستخدام الأوزان والتحيزات فقط. 
لذلك لم يعد من المهم استخدام طبقات مخفية متعددةفي شبكتك العصبية OY‏ جميع الطبقات 
تتصرف بالطريقة نفسها لأن الجمع بين دالتين الخطيتين هو دالة خطية ولن تتمتع الشبكة بقوة 
أكبر من الانحدار الخطي. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


افترض أن لديك متجه إدخال x‏ وثلاث طبقات مخفية ممثلة بمصفوفات الوزن Wa Wy‏ و 
.W3‏ بدون أي دالة تتشیط. تحتوي شبكتك العصبية على الناتج yox WWW;‏ الذي يساوي 
۷ بحیث يكون W = WWW‏ وهذا لیس سوى مضاعفة المصفوفة. COW‏ مع إدخال دالة 
التنشيط غير الخطية بعد كل تحويل خطي» لم يعد هذا يحدث: 

y-h (wf (wa fs (Wax) 
إنشاء كل طبقة فوق نتائج الطبقة غير الخطية السابقة والتي ينتج عنها ساسا دالة‎ OW يمكن‎ 


الميزات المثلى لدالة التنشيط 


كما ذكرنا سابقاء يجب أن يكون لدالة التنشیطنی الشبكات العصبية خصائص معينة. يمكن 
تلخيص الميزات المرغوبة التي يجب أن تتوفرفي دالة التنشيط على النحو التالي: 

* غيرخطى (Nonlinear)‏ كما ذكرنا Gols‏ إذا كانت دالة تنشيط خطية » فيمكن بسهولة 
البیرسیبترون الذي يحتوي على عدة طبقات مخفية في Perceptron‏ أحادي الطبقة < 
لأنه يمكن ببساطة التعبير عن التركيب الخطي لمتجه الادخال كتكوين خطي واحد لمتجه 
الإدخال . فى هذه الحالة ء لن يتأثر عمق الشبكة. لذلك . فان اللاخطية K‏ دالة التنشيط 
ضرورية عندما کون حدود القرار خر Ah‏ بطبیعتها. نظرا OY‏ اکا العصبية 
الاصطناعية تتعلم الأنماط أو الحدود من البیانات . فإن اللاخطية في دالة التنشيط ضرورية 
حتی یمکن للشبكة العصبية الاصطناعية أن تتعلم بسهولة أي حدود خطية أو غير خطية. 
المرکز- الصفري :(Zero-Centered)‏ يجب ol‏ يكون ناتج دالة التنشيط مرکا صفریا 
حتی لا تتغیر التدرجات في اتجاه معین. يتم استدعاء دالة المرکز الصفري عندما یکون 
لمداها قیم موجبة وسالبة. IS]‏ لم تكن دالة تنشيط شبكة مركزية صفرية . فهي دائمًا إيجابية 
أو سلبية دائمًا. لذلك . يتم دائمًا تمرير ناتج الطبقة إلى قيم موجبة أو سالبة. نتيجة لذلك. 
یحتاج متجه الوزن إلى مزید من التحدیث ليتم تدریبه بشکل صحیح. لذلك . إذا لم تكن 
دالة التنشیط مركرًا صفریا ء فسيزداد ote‏ الدورات التدريبية المطلوية لتذریب الشبكة. 
هذا هو سبب آهمية ميزة المرکز الصفري » وان لم تكن ضرورية. 
التكلفة الحسابية (Computational Expense)‏ يتم تطبیق دوال التتشیط بعد کل طبقة 
ویجب حسابها ملایین المرات في الشبکات العميقة. لذلك ‏ يجب أن یکون حسابهم 
قلیلا من الناحية الحسابية. 


الفصل الثالت: الشبكات العصبية امامية التغذية 


" قابل للاشتقاق :(Differentiable)‏ يتم تدريب الشبكات العصبية باستخدام عملية 
الانحدار الاشتقاقی. لذلك يجب اشتقاق دالة التنشيط Giy‏ للإدخال. هذا مطلب أساسى 
لتشغيل دالة n‏ ۱ 

=" مستمر (Continuous)‏ يمكن اشتقاق ülh‏ ما لم تكن مستمرة. 

:(Bounded) bos *‏ يتم إرسال بيانات الادخال من خلال سلسلة من بيرسيبترون. كل 
منها يحتوي على دالة التنشيط. نتيجة لذلك » إذا لم تقتصر الدالة على حد واحد . فقد 
تنفجر قيمة الإخراج (explode)‏ للسيطرة على هذا الانفجار في القيم . فان الطبيعة 
المحدودة لدالة التنشیط مهمة ولكنها ليست ضرورية. 


مشاكل دوال التنشيط 


تعد مشكلة تلاشي الاشتقاق (Vanishing Gradient problem)‏ ومشكلة الخلايا العصبية 
الميتة (dead neuron)‏ مشكلتين رئيسيتين تواجههما وظائف التنشيط المستخدمة على نطاق 
واسع: 

* مشكلة تلاشي الاشتقاق: يتم تدريب الشبكات العصبية باستخدام الانحدار الاشتقاقي 
وخوارزمية الانتشار الخلفي. عند استخدام خوارزمية الانتشار الخلفي . يتم حساب التدرج 
بشکل أصغر وأصغر فى المرحلة العكسية. هذا لأنه یجد الانحدار الاشتقاقى فی کل تكرار 
للمشتقات الجزئية بالمرور من الطبقة الأخيرة إلى الطبقة الأولية باستخدام قانون السلسلة. 
في شبكة nly‏ طبقات مخفية ء يتم ضرب مشتقات هذه الطبقة N‏ ببعضها البعض. الآن 
إذاكانت هذه المشتقات صغيرة ‏ فإن الانتقال إلى الطبقات الأولية سینخفض بشكل كبير 
(أو في أسوأ الحالات ستكون صفراً وسيتوقف تعلم الشبكة) سيؤدي ذلك إلى ظاهرة 
تلاشي التدرج \(Vanishing Gradient)‏ تلاشي الاشتقاق. Pas‏ لأن هذه التدرجات 
الصغيرة لا يتم تحديثها في تكرار الخوارزمية . Wes‏ ما تكون هذه الطبقات الأولية فعالة 
في التعرف على البيانات . فإنها تؤدي إلى عدم Bo‏ الشبكة بشكل غير كاف ولا يمكن 
لهذه الطبقات التعلم بشكل صحيح. بمعنی آخر ۰ تختفي تدرجاتها بسبب عمق الشبكة 
وتنشيطها . مما يقلل القيمة إلى الصفر. وبالتالي ‏ لا نريد تغيير دالة تنشيط التدرج إلى 
الصفر. على عكس تلاشى الانحدار « هناك انحدار (Exploding Gradients) áss‏ 
إذا كانت cle yal e‏ کی ٠‏ فإنها تؤدي إلى تحديثات كبيرة جد لوزن نموذج الشبكة 
العصبية أثناء التدريب. مع النمو الأسي من خلال النقل إلى الطبقات . تتدفق هذه 
التدرجات الكبيرة في النهاية ولن تكون الأوزان قادرة على التحديث : مما يؤدي إلى إنشاء 
شبکات غیر مستقرة, 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


* الخلايا العصبية الميتة: عندما تفرض دالة التنشيط جزءًا eS‏ من المدخلات على الصفر 
أو بالقرب من الصفرء فإن تلك الخلايا العصبية المقابلة تكون غير نشطة (ميتة) لمساعدة 
الناتج النهائي. أثناء تحديث الأوزان ۰ من الممكن تحديث الأوزان بطريقة تجعل الوزن 
الإجمالي لجزء کبیر من الشبكة صفريًا بالقوة. بالکاد يمكن للشبكة أن تتعافى من مثل هذا 
الموقف . ولا يمكن لجزء كبير من المدخلات أن يساعد الشبكة. هذا يؤدي إلى مشكلة 
لأنه قد يتم تعطيل جزء كبير من الإدخال GLS‏ أثناء تنفيذ الشبكة. تسمی هذه الخلايا 
العصبية التي تصبح خاملة بشدة "الخلايا العصبية الميتة' (dead neuron)‏ وتسمى هذه 
المشكلة مشكلة الخلايا العصبية الميتة. باختصار . الخلايا العصبية الميتة هی شبكة 
عصبية اصطناعية تسمى الخلايا العصبية التي لا يتم تنشيطها أثناء التدريب. يمنع هذا 
العصبون من التعبير عن وزنه لأن مشتقاته ستكون صغيرة جدا أو صفرية. لا تنتشر الأخطاء 
عبر الخلايا العصبية الميتة c‏ لذا فهى تؤثر على الخلايا العصبية الأخرى فى الشبكة. 

دوال التنشيط المفيدة 
في هذا القسم. سنناقش وظائف التنشيط الأكثر استخدامًا وخصائصها. 
Sigmoid‏ 
علس = Ox)‏ 
(x) 1+ ۶×‏ 
حيث x‏ هي مدخلات دالة المنشط. الآن bes‏ نبرمج هذافي بايثون: 


def sigmoid(x): 
return 1/(1+np.exp(-x)) 


دالة Sigmoid‏ متصلة ومحصورننی النطاق )0.1( ومشتقة ولكن ليست صفرية المركز. تأخذ 
هذه الوظيفة أي قيمة حقيقية كمدخلات وترجع القيمني النطاق من 0 إلى 1 المخرجات. كلما 
كان المدخل أكبر (أكثر إيجابية): كلما كان الناتج أقرب إلى 1.0 بينما كلما كان المدخل أصغر 
(أكثر سلبية). كلما كان الناتج أقرب إلى 0.0. 

:1 - a(x) مضروبةفي‎ «o (x) Sigmoid دالة‎ «a(x) هو‎ Sigmoid مشتق دالة‎ 


G(x) = o(x).(1 — o(x)) 
التالي:‎ pull على‎ Sigmoid والتي نی بايثون يمكننا أن نبرمج‎ 


def der_sigmoid(x): 
return sigmoid(x) * (1- sigmoid(x)) 


الفصل الثالت: الشبكات العصبية امامية التغذية 


الآن دعنا نوضح دالة 81800014 ومشتقتها. للقيام بذلك آدخل الكود التالي: 


import numpy as np 
import matplotlib.pyplot as plt 


# Sigmoid Activation Function 
def sigmoid(x): 
return 1/(1+np.exp(-x)) 


# Derivative of Sigmoid 
def der_sigmoid(x): 
return sigmoid(x) * (1- sigmoid(x)) 


# Generating data to plot 

x data = np.linspace(-10,10,100) 
y_data = sigmoid(x data) 

dy. data = der. sigmoid(x data) 


# Plotting 

plt.plot(x_data, y_data, x_data, dy_data) 
plt.title('Sigmoid Activation Function 8 Derivative') 
plt.legend(['sigmoid', 'der_sigmoid' ]) 

plt.grid() 

plt.show() 


Sigmoid Activation Function & Derivative 


— sigmoid 
——— der sigmoid 
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تعاني دالة Sigmoid‏ من بعض العيوب الرئيسية. تقتصر دالة Sigmoid‏ على النطاق )0.1( 
ومن ثم فإنه ينتج دائمًا قيمة غير سلبية. لذلك فهي ليست دالة تنشيط صفرية المركز. تحول دالة 
Gs Sigmoid‏ كبيرًا من المدخلات إلى نطاق صغیر (0:1). لذلك يؤدي التغيير الكبير في قيمة 
الإدخال إلى تغيير طفيف في قيمة الإخراج. يؤدي هذا Ga‏ إلى قيم متدرجة صغيرة. بسبب قيم 
التدرج المنخفضة . يتلاشى الانحدار. 

في التطبيقات العملية. فإن دالة ۰51810010 على الرغم من شعبيتهاني الماضي. أصبحت أقل 
استخدامًا بسبب مشكلتين مهمتين: 


1. مشكلة تلاشي الانحدار. تتسبب دالة 51870010 في مشكلة تلاشي الانحدار في خوارزمية 
الانتشار الخلفي. في هذه الحالة ء لا يتم إرسال أي إشارة عبر الخلايا العصبية . لذلك 
لن تتعلم الخلايا العصبية أي شيء أثناء مرحلة التدريب. 

2 ليست صفرية المركز. مخرجات دالة Sigmoid‏ ليست صفرية المركز. ومن ثم في 
خوارزمية الانتشار الخلفي . يتم إنشاء التدرجات التي تكون إما إيجابية أو كلها سلبیق 
وهي غير مناسبة لتحديث تدرجات الأوزان. 


* يتراوح نطاق إخراجهامن 0 إلى 1 لذلک يمتنها إنشاء الاحتمالات. هذا يجعل 51812010 مفیداللخلایا 
العصبيه الناتجه عن الشبله العصبیه لأغراض التصنيف . 


" |نهاقابله للاشتقاق فی ثل مثان. 


aio yo gle, *‏ التشبع ( 1061م (saturation‏ تعتبرالخليهٌ العصبيهٌ مشبعة إذا وصلت إلى 
الحد الأقصى أو الحد الأدنى لقيمتهاء بحیث yy‏ مشتقها يساوى 0. فى هذه aI‏ لايتم تحدیت 
الأوزان » ممايؤدى إلى ضعف التعلم GL‏ العميقة. 

* انهاليستدالهُ صفريهٌ المرثز. وبالتالى » فان تدرج جميع الأوزان المرتبطه بالخلاياالعصبييخون موجبا 
أوسلبيا. bl‏ عملیهٌ التعدیت . يسمح لهذه الأوزان بالتحرگ فی اتجاه واحد bad‏ أى إيجابي نأو سلبیهً 
فی ثل مرةٌ. هذا يجعل الأمراكثرصعوبةلتحسين دال الخطاً. 

a‏ لهاتخلفهُ حسابيهعاليةٌ. تؤدى هذه الداله عملیه آسیهٌّینتج عنهاوقت حسابى أثبر. 


tanh 


ترتبط Jl»‏ تنشيط bls)! tanh‏ وثیقا بدالة Sigmoid‏ وشكلها الرياضي هو كما يلي: 


sinhx) e*—e"* 


cosh(x) e*-4e-* 


في بايثون یمکننا برمجتها على النحو التالي: 


f(x) = tanh(x) = = 20(2x) — 1. 


def htan(x): 
return (np.exp(x) - np.exp(-x))/(np.exp(x) + np.exp(-x)) 


الفصل الثالت: الشبكات العصبية امامية التغذية 


كما يتضح من المعادلة tanh ob odef‏ هو ببساطة نسخة مصغرة من Sigmoid‏ ومع ذلك 
فهو صفري المرکز. وبالتالي فإنه لا يظهر بعض المشاكل التي gly‏ منها -Sigmoid Activator‏ 
هذه الدالة مستمرة ومشتقة ومحصورةفي النطاق (-1ء1). وبالتالي فإنه ينتج سالب» موجب. 
وصفر کمخرجات. ويتم تعيين المدخلات السلبية بشدة إلى tanh‏ كمخرجات سالبة. لذلك. OB‏ 
دالة التنشيط tanh‏ تتمحور حول الصفر وتحل مشكلة صفر المركز لدالة Sigmoid‏ 
یتم حساب مشتق tanh llo‏ علی النحو التالي: 
f(x) =1- f(x)?‏ 
والتيفي بايثون يمكننا كتابتها على النحو التالي: 


def der_htan(x): 
return 1 - htan(x) * htan(x) 


دعنا نوضح دالة tanh‏ ومشتقاتها. للقيام بذلك آدخل الكود التالي: 


import numpy as np 
import matplotlib.pyplot as plt 


# Hyperbolic Tangent (htan) Activation Function 
def htan(x): 
return (np.exp(x) - np.exp(-x))/(np.exp(x) + np.exp(-x)) 


# htan derivative 
def der_htan(x): 
return 1 - htan(x) * htan(x) 


# Generating data for Graph 
x_data = np.linspace(-6,6,100) 
y_data = htan(x_data) 

dy_data = der_htan(x_data) 


# Graph 

plt.plot(x_data, y_data, x_data, dy_data) 
plt.title('htan Activation Function & Derivative’) 
plt.legend(['htan','der htan']) 

plt.grid() 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


htan Activation Function & Derivative 
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* على Sigmoid ide‏ ءفھی allo,‏ صضریه المرثزلتسهيل تحسين دال الخطاً. 
* تنعيم ناتج الخلايا العصبية فى النطاق بين 191 


* انهامکلفه‌حسابیا. 


* انهاعرضهلتلاشی الانحدار. 


ReLU 
في الشبكات متعددة الطبقات بسبب مشكلة تلاشي‎ tanh sSigmoid لا يمكن استخدام دوال‎ 
شیوعانی التعلم العميق (الطبقة‎ ASW ء وهي دالة التنشيط‎ ReLU الانحدار. دالة التنشيط‎ 
المخفية) . تتغلب على مشكلة تلاشي الانحدان مما يسمح للشبكة بالتعلم بشکل أسرع وأداء‎ 

أفضل. يتم تعريف دالة ReLU‏ على النحو التالي: 
ye bid > 0‏ 
(x forx>0‏ ` 
في بايثون یمکننا کتابتها على النحو التالي: 
def ReLUCx):‏ 


data = [max(@,value) for value in x] 
return np.array(data, dtype=float) 


الفصل الثالت: الشبكات العصبية امامية التغذية 


يتم حساب مشتق دالة ReLU‏ على النحو التالي: 


z 0 forx <0 
تب‎ 


في بايثون یمکننا كتابتها على النحو التالي: 


def der_ReLU(x): 
data = [1 if value>@ else @ for value in x] 
return np.array(data, dtype=float) 


أدخل الكود التالي لتوضيح دالة RELU‏ ومشتقاتها: 


import numpy as np 
import matplotlib.pyplot as plt 


# Rectified Linear Unit (ReLU) 

def ReLUCx): 
data = [max(@,value) for value in x] 
return np.array(data, dtype=float) 


# Derivative for ReLU 

def der_ReLU(x): 
data = [1 if value>@ else 0 for value in x] 
return np.array(data, dtype=float) 


# Generating data for Graph 
x_data = np.linspace(-10,10,100) 
y_data = ReLU(x_data) 

dy_data = der_ReLU(x_data) 


# Graph 

plt.plot(x_data, y_data, x_data, dy_data) 
plt.title('ReLU Activation Function & Derivative') 
plt.legend(['ReLU', 'der_ReLU' ]) 


plt.grid() 
plt.show() 
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التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


* يسرع بشكل تُبيرتقارب الانحدار الاشتقاقى العشوائی مقارنه بدالة51810010. 
* یمدنه التعامل مع مشخله تلاشى الانحدار. 

* إنهادالة حسابية رخيصة. 

* إنهادالة التنشيط الأثثراستخدامًا. 

* يتقارب بسرعة تبيرة. 


* ليست صفره المركز. 

* لدیه‌مشئلهٌ مع الخلایاالعصبیه الميتة. الجانب السلبى من الرسم البیانی يعيد ضبط قيمه التدرج إلى 
الصفر. لهذا السبب. لاتحدث الأوزان والتحيزات لبعض الخلايا العصبية آثناء عملي الانتشار الخلفى. 
oos‏ أن ينتج خلاياعصبيهُ ميته لايتم تنشيطهاأبدا. بمعن آخر تثون جميع قيم الإدخال السلبيةٌ 
leo) à‏ الفور » ممایقلل من قدرهٌ النموذج على تعليم البيانات Buby‏ صعیح. 


عندما یتلقی ReLU‏ مدخلات سلبية. يكون الناتج صفرًا. لذلک, لا يتعلم gl‏ شىء من 
خلال النشر اللاحق ail)‏ لا یمکنک عكسه). بمعنی JA‏ إذا کان المشتق صفراً. فان 


التنشيط الإجمالى يساوى an‏ لذلک لا توجد مساهمه ALU‏ الخلايا العصبية فى 
الشبك 6 


Softmax 
كمخرجني مسائل التصنيف متعدد الفثات لإيجاد احتمالات لفتات‎ sofmax تستخدم دالة‎ 
Softmax الذي بُفضل للتصنيف الثنائي). تحسب وظيفة‎ Sigmoid Se مختلفة (على‎ 
احتمالات كل فئة هدف على جميع الفئات المستهدفة الممكنة (مما پساعدفي تحديد الفئة‎ 

المستهدفة): 
e?i :‏ 
YE. em for j =1,...,k‏ 
Softmax e 5‏ الاحتمال لنقطة بيانات تنتمي إلى كل فئة على حدة. لاحظ أن مجموع كل القيم 
هو 1. 


في OL‏ یمکننا برمجتها على النحو التالي: 


Softmax (zi) = 


def softmax(x): 
return np.exp(x) / np.sum(np.exp(x), axis-0) 


أدخل الکود التالي لتوضيح دالة :Softmax‏ 


الفصل الثالت: الشبكات العصبية امامية التغذية 


import numpy as np 
import matplotlib.pyplot as plt 


# Softmax Activation Function 
def softmax(x): 
return np.exp(x) / np.sum(np.exp(x), axis=0) 


# Generating data to plot 
x data = np.linspace(-10,10,100) 
y_data = softmax(x data) 


# Plotting 

plt.plot(x_data, y_data) 
plt.title('Softmax Activation Function' ( 
plt.legend(['Softmax']) 

plt.grid() 

plt.show() 


Softmax Activation Function 
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بالنسبة لمشاكل التصنيف متعدد الطبقات. تكون طبقة المخرجات كبيرة مثل الفئة المستهدفة 
من الخلایا العصبية. على سبيل المثالء افترض أن لديك 4 فتات -[A, B, C, D]‏ ومن ثم 
سيكون هناك 4 jimas LOG‏ طبقة الاخراج. لنفترض أن ناتج دالة Softmax‏ لبيانات ما 
يساوي [0.26:0.14:0.41:0.19]ء BIL‏ إلى قيمة الاحتمال یمکننا القول إن الادخال ینتمی 
إلى الفئة C‏ ۱ 


التحسين ودالة الخطأ (Loss Function)‏ 

خوارزميات التحسين عبارة عن خوارزميات تُستخدم لتقليل دالة الخطأ / التكلفة (دالة الخطأ 
هي خطأ عينة تعليمي واحد. بینما دالة التكلفة هي خطأ مجموعة البيانات التعليمية بأكملها) عن 
طريق تحدیث أوزان الشبكة. تلعب خوارزميات التحسين دورًا مهما للغايةفي عملية تدريب الشبكة 
ولها تأثير مباشر على وقت التدريب الذي يقضيه. بمعنى آخر. خوارزميات التحسين للتعلم 
العميق هي المسؤولة عن العمل المعقد لنماذج التعلم العميق للتعلم من البيانات. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


لفهم ما هو التحسين؟ يجب علينا أولا تحديد الهدف. يعتمد الهدف على ميزات معينة للنظام 
تسمى المتغيرات. هدفنا هو إيجاد قيم المتغيرات التي تعمل على تحسين الهدف. معظم 
المتغيرات محدودة نوعا ما. من وجهة نظر رياضية. التحسين هو عملية تكبير (maximizing)‏ 
أو تصغير Jl» (minimizing)‏ موضوعية f (X)‏ من خلال البحث عن متغيرات مناسبة × فيما 

يتعلق بقيود ٥٥ء‏ والتي يمكن ضغطها على النحو التالي: 
ع c;(x) = 0, ie‏ 


minyegn f (x)subject to s > 0, ied 


حيث £ و 3 هما على التوالي مجموعة من المؤشرات لقيود المساواة وعدم المساواة. هذه 
العبارة الحسابية مخيفة بالتأكيد للوهلة الأولى !!» ربما لأنها محسّنة لوصف ple‏ لکن لا تقلقء 
JS‏ شيء سیتضح لاحقا. 

هناك ide‏ طرق مختلفة لتحسین التعلم العمیق. على سبیل المثال. آبسط خوارزمية تحسین 
مستخدمةفي التعلم العميق هي الانحدار الاشتقاقي Gradient Descent‏ . الانحدار الاشتقاقي 
هو خوارزمية تحسين تكرارية من الدرجة الأولى تستخدم للعثور على الحد الأدنى المحلي لدالة 
معينة. هذا يعني أنه يتم أخذ المشتق الأول فقطنی الاعتبار عند تحديث المعاملات. في كل تکرار 
نقوم بتحديث المعاملاتفي الاتجاه المعاكس لتدرج الوظيفة الهدف JO)‏ یتم تحديد حجم 
الخطوة التي نتخذهاني كل تكرار للوصول إلى الحد الأدنی المحلي من خلال معدل التعلم ». 
لذلك. نتبع اتجاه التدرج لأسفل للوصول إلى الحد الأدنی المحلي. 

طريقة أخرى هي تحسين نیوتن. والتي تساعد على تحسين المحسنات باستخدام مشتق من 
الدرجة الثانية من خلال إيجاد جذور الدالة. ومع ذلك. فان هذه الطريقة تزيد بشكل كبير من 
التعقيد الحسابى مقارنة بطرق الانحدار الاشتقاقی. والتى تعتمد على مشتقة من الدرجة الأولى. 
لذلك ُفضل تقليل التدرجاتفي تدريب الشيكة العصبية. هناك خوارزميات مختلفة تعتمد على 
الانحدار الاشتقاقي. استمرارًا لهذا القسم. وبعد وصفه الکامل. سنقدم ونراجع إصدارات أخرى 
من هذه الخوارزمية. 


فى عملي تدريب الشباه العصبیه, يبحث المحسنات عن مجموعهٌ من المعاملات تسمی أيضاالأوزانء 


لتقلیل مقدار الخطا الذی یلحق بدالهً الخطا. 


الانحدار الان ستقاقي! 


تعد خوارزمية الانحدار الاشتقاقی طريقة تحسین قائمة على التکرار تحاول تقلیل مقدار دالة 
الخطأ عن طریق تغيير الأوزان الداخلية للشبكة العصبية.في هذه الطريقة. يتم تحديث آوزان 


1 Gradient Descent 


الفصل الثالت: الشبكات العصبية امامية التغذية 


الشبكة تدریجیّا وفي کل تکرار تحاول الخوارزمية تقلیل قيمة دالة الخطأ. يتم تنفيذ هذه العملية 
طالما أن تكرارها لا يؤدي إلى تغییرنی دالة الخطأ. 

هناك ثلاث طرق عامة لاستخدام الانحدار الاشتقاقي: الانحدار الاشتقاقي الكامل (Batch‏ 
«gradient descent)‏ الانحدار الاشتقاقي دفعة (Mini-batch gradient?.x2»‏ 
.descent)‏ عندما يتم التحديث بعينة واحدة فقط. gies‏ عليه طريقة الانحدار الاشتقاقي 
العشوا ائي (Stochastic gradient descent)‏ او اختصارا (SGD)‏ 


في هذه طريقة الانحدار الاشتقاقي العشوائي» يتم الحصول على إجراءات وآوزان جديدة عن 
طريق إدخال کل عينةفي شبكة التحديث. عيب هذه الطريقة أنها تتعثرفي الحد الأدنى المحلی. 
بالإضافة إلى ذلك. فإنه يحتوي على نتائج غير مستقرة بسبب الاستجابة لكل إدخال de‏ 
الشبكة. 


في طريقة الانحدار الاشتقاقي الكامل یتم تغذية الشبكة بجميع عینات التدريب. تقوم الشبكة 
بإجراء تحديث مرة واحدة لجميع العينات بعد حساب الخطأ. على الرغم من أن هذه الطريقة 
تساعد النموذجنی الهروب من الحد الأدنى المحلي وتوفر تقاربًا أكثر ÉL‏ مقارنة بالانحدار 
الاشتقاقي للعینة إلا أنها مع ذلك تؤدي إلى وقت تدريب أطول. Lal‏ ليس من الممكن Gila‏ 
إرسال جميع عينات التدريب إلى الشبكة بسبب نقص الذاكرة.في الفجوة بين الطريقتين» يتم 
استخدام الانحدار الاشتقاقي دفعة صغيرة (mini-batch gradient descent)‏ .3( هذه ii hil‏ 
يتم تغذية الشبكة بمجموعة من عينات التدريب للاستفادة من الطريقتين السابقتين. يتمتع 
تحديث المعاملات باستخدام مجموعة من العينات بميزة مهمة: باستخدام هذه الطريقة. يكون 
النموذج أكثر مقاومة من العينات الصاخبة data)‏ وزهآ)ولدیه تباین أقلفي تحديث 
المعاملات. هذا يوفر تقاربا أكثر استقرارا. ومع ذلك. تتطلب هذه الأساليب اختيار معدل التعلم 
(a)‏ الذي ليس من السهل دائمًا اختياره. بالإضافة إلى ذلك. لا يمكن أن يكون معدل التعلم نفسه 
في جميع المراحل التدريبية ولجميع المعايير المختلفة هو الأمثل. إذا تم اختيار 0 بحجم كبير 
جداء فقد يتقلب التدريب أو لا يتقارب أو يتجاوز الحدود الدنيا المحلية ذات الصلة.نی المقابلء 
إذا تم اختيار معدل تعليمي صغير جدا. فإنه يؤخر بشكل كبير عملية التقارب. ومن ثم OB‏ 
الأسلوب الشائع للتحايل على هذا هو استخدام انحلال معدل التعلم (rate decay)‏ على سبيل 
المثال. يمكن أن يؤدي استخدام الانحلال إلى تقليل معدل التعلم بعدة فترات. هذا يسمح بقدر 
أكبر من التعلم‌في بداية التدريب ومعدل تعلم أقلفي نهاية التدريب. ومع ذلك. فإن طريقة الانحلال 
هذه هي Call‏ معاملات فائقةفي حد ذاتها ويجب تصميمها بعناية اعتمادًا على التطبيق. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


الهدف من مُحسّن معدل التعلم التكيفي هو حل مشكلة إيجاد معدل التعلم الصحيح.في هذه 
الأساليب» لا يكون معدل التعلم » متغيرًا Stale‏ ولكن بدلاً من ذلك يكون لكل معامل قابل 
للتعليم معدل التعلم الخاص بها.في حين أن هذه الطرق لا تزال بحاجة إلى معاملات. الا انها 
تعمل بشكل جيد مع نطاق أوسع من التنظيمات؛في كثير من الأحیان. انهم فقط يستخدمون 
المعاملات الفائقة الافتراضية المقترحة. 


تنفيذ الانحدار الا ^ تقاقي في بايثون 


كما ذكرنا EL‏ التحسين أردنا تصغير دالة. لنرى الآن كيف یمکننا حل دالة fmin‏ بفضل 
حساب التفاضل والتکامل. لدينا أداة تسمى الانحدار. تخیل كرة على قمة تل. نحن نعلم أن التلال 
لها تدرجات مختلفةفي أماكن مختلفة. بسبب الجاذبية» تتحرك الكرة أسفل منحنی التل.في أي 
اتجاه تذهب الكرة؟ منحدر شديد الانحدار. بعد فترة. تصل الكرة إلى الحد الأدنى المحلي حيث 
تكون الأرض مسطحة بالنسبة لمحيطها. هذه هي طبيعة الانحدار الاشتقاقي. یمکننا تحويل 
المسار السلس للكرة إلى خطوات صغيرة.في الخطوة ا . سيكون لدينا کمیتان: طول الخطوة Ap‏ 
والاتجاه py‏ لمشاهدة الانحدار الاشتقاقيني الممارسة العملية نقوم آولاً باستیراد بعض 
المكتيات. 
import numpy as np‏ 
import matplotlib.pyplot as plt‏ 


from matplotlib.ticker import MaxNLocator 
from itertools import product 


2 


للبدء. نحدد Ila‏ موضوعية بسيطة 3 — x ol f(x) = x? — 2x‏ هي آرقام حقيقية. نظ 
لآن الانحدار الاشتقاقي يستخدم الانحدار فإننا نحدد أيضًا الانحدار . وهو فقط المشتق 
الأول من f‏ يعنى 2 - Vf (x) = 2x‏ 


def func(x): 
return x**2 = 24x - 3 


def fprime(x): 
return 2*x - 2 


بعد ذلك. نحدد دوال بايثون لرسم دالة الهدف ومسار التعلم أثناء عملية التحسين: 


def plotFunc(x@): 
x = np.linspace(-5, 7, 100) 
plt.plot(x, func(x)) 
plt.plot(x0, func(x0), 'ko') 
plt.xlabel('$x$') 
plt.ylabel('$f(x)$') 
plt.title('Objective Function') 


def plotPath(xs, ys, x0): 
plotFunc(x0) 
plt.plot(xs, ys, linestyle='--', marker='0', color='#F12F79') 
plt.plot(xs[-1], ۷5۲-1 1, 'ko') 


الفصل الثالت: الشبكات العصبية امامية التغذية 


من الرسم البياني آدناه. یمکننا أن نرى بسهولة أن f‏ لھا قيمة دنيا هي 1 = ×. لنفترض أننا بدأنا 
ب 4— = ×(المشار إليها بنقطة سوداء أدناہ)ء نريد أن نرى ما إذاكان الانحدار الاشتقاقى يمكنه 
تحديد الحد الأدنى المحلى 1 = ×. 


x0 = -4 
plotFunc(x0) 


Objective Function 


نحدد خوارزمية الانحدار الاشتقاقی البسيط على النحو التالی: لكل نقطة »× في بداية الخطوة ck‏ 
نحافظ على طول الخطوة ary‏ ثابتا ونضبط اتجاه py‏ سلبيًا على قيمة الانحدار. نقوم بتنفيذ هذه 
الخطوات باستخدام الصیغة التالية: 


Xk+1 = Xk + 6 


حيث یکون الانحدار آعلی من dad‏ تحمل معينة (فی حالتنا 1079 X‏ 1( ویکون عدد الخطوات 
قيمة معينة (في حالتنا 1000( 


def GradientDescentSimple(func, fprime, x0, alpha, tol-1e-5, max iter-1000): 
# initialize x, fOO, and =f" CX) 
xk = x0 
fk = func(xk) 
pk = -fprime(xk) 
# initialize number of steps, save x and f(x) 
num_iter = 0 
curve_x = [xk] 
curve_y = [fk] 
# take steps 
while abs(pk) > tol and num_iter < max_iter: 
# calculate new x, f(x), and -f'(x) 
xk = xk + alpha * pk 
fk = func(xk) 
pk = -fprime(xk) 
# increase number of steps by 1, save new x and f(x) 
num iter += 1 
curve. x.append(xk) 
curve y.append(fk) 
# print results 
if num_iter == max_iter: 
print('Gradient descent does not converge. ') 
else: 
print('Solution found:\n y = {:.4f}\n x = {:.4f}'.format(fk, xk)) 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


return curve_x, curve_y 


نبدأ من 4- = x‏ ونشغل خوارزمية الانحدار الاشتقاقى على f‏ بسيناريوهات مختلفة: 


Qy = 1 

9 = پیم 

âk = 1x 4 
a, = 1.01 


السیناریو الاول: 0.1 = ينه 


xs, yS = GradientDescentSimple(func, fprime, x0, alpha-0.1) 
plotPath(xs, ys, x0) 


Solution found: 
y = -4.0000 
x = 1.0000 


Objective Function 


fix) 


السيناريو الثاني: 0.9 = به 


XS, yS = GradientDescentSimple(func, fprime, x0, alpha-0.9) 
plotPath(xs, ys, x0) 


Solution found: 
y = -4.0000 
x = 1.0000 


الفصل الثالت: الشبكات العصبية امامية التغذية 


Objective Function 


السیناریو الثالث: ^107 x‏ 1 = ينه 


xs, ys = GradientDescentSimple(func, fprime, x0, alpha=1e-4) 
plotPath(xs, ys, x0) 


Gradient descent does not converge. 


Objective Function 


x) 


السيناريو الرابع: 0.1 = ak‏ 


xs, ۷5 = GradientDescentSimple(func, fprime, ×۵, alpha=1.01, max_iter=8) 
plotPath(xs, ys, x0) 


Gradient descent does not converge. 


Objective Function 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


يمكن تلخيص ما حصلنا عليه من الرسوم التوضيحية Godel‏ السيناريوهات المختلفة على 
النحو التالى: 
السیناریو الأول متقارب بسهولة. حتی إذاکان طول الخطوة ثابتاء فان الاتجاه ينخفض إلى 
الصفرء مما يؤدي إلى التقارب. 
يتقارب السيناريو الثاني Cal‏ على الرغم من تذبذب مسار التعلم بسبب طول الخطوة 
الكبيرة حول الحل. 
السيناريو الثالث يتحرك نحو الحل. ومع ذلك. فإن طول الخطوة صغير جد بحيث يتم 
تكبير عدد التکرارات ولا يمكنه العثور على الإجابة.في هذه الحالة تؤدي زيادة الحد الأقصى إلى 
حل المشكلة. 
السيناريو الرابع مختلف بسبب طول الخطوة الكبيرة. هناء قمنا بتعيين 8 = max iter‏ 
لتحسين الرسم التوضيحي. 
شيء واحد يمكن فهمه هو أن الحل 1 = × يمكن الحصول عليه بانحدار اشتقاقي بطول 
الخطوة المناسب. ۱ 
قد تتساءل عن سبب عدم استخدامنا لحل تحليلي دقيق: خذ المشتق گر ء ثم حل × بحيث 
تكون المشتقة صفرًا. بالنسبة للمثال السابق نجد أن × التي تقلل من f‏ تحقق- Vf (x) = 2x‏ 
2 ۰ آي .1 = x‏ نعم هذه طريقة واحدة. ولكن عندما تواجه مشكلة تحسين حيث یصعب أو 
يستحيل حل المشتقة f‏ لم يعد يوصى بهذه التقنية. 
لاحظ أن التنفيذ البسيط آعلاه كان فقط من أجل فهم آفضل لكيفية عمل الانحدار الاشتقاقي 
مع الرسم التوضيحي.في الممارسة العملية» ليست هناك حاجة للتنفیذ. وتتضمن أطر التعلم 
العميق التنفيذ الفعال لهذه الخوارزميات. 
الانحدار الاشتقاقي المعتمد على الزخم (Momentum)‏ 
تأخذ طريقة الانحدار الاشتقاقي القياسي باستخدام معدل التعلم » خطوة صغيرةفي الاتجاه 
المعاكس للانحدار. هذا المعامل له قيمة ثابتة طوال عملية التعلم. معادلته الرياضية على النحو 
التالي: 
(ع0)ع17.نه — Ot+1 = 0t‏ 
حيث ,0 هي معاملات / آوزان النموذجفي الفترة 6 ء Ve (Oe)‏ هي الانحدار لكل وزن ,40( الفترة 
ا و » هي معدل التعلم. يتحرك الانحدار الاشتقاقي القياسي بشكل مستقل عن الخطوات السابقة 
بحجم خطوة ثابت إلى أسفل. إذا كانت الدالة المستهدفة مثل وادي طويل مع تحسينات محلية 
وجدران منحدرة علی کلا الجانبین (انظر الشکل 13-3 : فسیکون تحدیث الأوزان E‏ جذا 
وسيودي إلى عدد کبیر من الخطوات. لحل هذه المشکلة Gla;‏ الزخم (Momentum)‏ 


الفصل الثالت: الشبكات العصبية امامية التغذية 


خوارزمية الانحدار الاشتقاقي. الفكرة الرئيسية للزخم هي إضافة ذاكرة قصيرة المدى إلى الانحدار 
الاشتقاقي. بمعنى آخر, بدلاً من استخدام الانحدار للمرحلة الحالية لتوجيه البحث. يقوم الزخم 
Cad‏ بتجميع تدرجات الخطوات السابقة لتحديد الاتجاه. يمكن تنفيذ هذه الآلية على النحو 
التالى: 
Ot+1 = 9 - Vi‏ 
Ve = ۷.۷ - 0.۷ (Oz)‏ 

في هذه المعادلات. y‏ هو تعبیر الزخم الذي بحدد تأثیر الانحدارات السابقة على التحدیث 
الحالي. الفكرة العامة هي وضع هذه العبارة بالقرب من 1 قدر الامکان واختیار قيمة عالية قدر 
الامکان لمعدل التعلم» مع الحفاظ على تقارب مستقر. 


2D Griewank Function 


شکل 3-3. توضيح دالة Griewank‏ 


من خلال إضافة المحفوظات إلى معادلة تحديث المعامل بناء على الانحدار الذى تمت 


مواجهته فى التحديثات السابقة. pes‏ الزخم الانحدار الاشتقاقى (یضیف ذاکرۂ aul‏ 
بطريقة ما) مما يؤدى إلى تقارب أسرع. 


الانحدار الاشتقاقي المسرع نيستوروف (NAG)‏ 


يبدو أن تشبيه الكرة التي تتدحرج إلى أسفل الوادي وتتسارع من خلال الزخم هو ميزة جيدة 
للتنفيذ. ومع ذلك. لا تتوقف الكرة عندما GOSS‏ الوادي» فهي تدور أكثر فأكثر حتى تنتهي 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


السرعة. من ناحية آخری, إذا كان هناك صعود على الجانب الآخر من الوادي فسيؤدي ذلك إلى 
ارتداد الكرةفي النهاية للخلف. ولكن ستكون هناك عدة تقلبات قبل أن تتوقف الكرة عند أدنى 
alan‏ الوادي. جاء نيستوروف (1983) بفكرة منع الكرة من الارتفاع عالياً. لحساب حجم 
الخطوةفي الفترة الحالية» تقوم بحساب التدرج اللونيفي الموقع التقريبي حيث تنتهي الكرة 
الكبيرة جدا المؤدية إلى الجانب الآخر من الوادي. يطبق نيستوروف هذه الطريقة على النحو 
التالى: 
Vi‏ - 0 = 0:141 
V, =V-Ve-1 — 0.۷00 — Y. Ve-1)‏ 
تسمى هذه الطريقة ب Nesterov Accelerated Gradient Descent‏ أو NAG‏ للاختصار. 
عيب هذه الطريقة هو حساب y. Vii)‏ - ,۷:60 ۰ والتي يمكن أن تستغرق وقنًا حسابيًا لبعض 
الشبكات. يقترح Sutskever‏ وآخرون )2013( تعديل حساب Ve‏ على النحو التالي: 
V, = y. m, + a. V4(0,)‏ 
m, = y.m,.4 + a.V4(0,)‏ 
à Lo j Jlgà‏ الانحدار الاشتقاقى فی keras‏ 
عند استخدام Keras‏ لتحديد المحسن. يمكن تخصيص محسُن الانحدار الاشتقاقي العشوائي 
(SGD)‏ عن طريق أخذ عينات مباشرة من فئة SGD‏ واستخدامها عند تجميع النموذج: 
from tensorflow.keras.optimizers import SGD‏ 


sgd = SGD(learning rate-0.0001, momentum-0.8, nesterov=True) 
model.compile(optimizer-sgd, loss = ..., metrics= ...) 


تقبل فئة SGD‏ باراميتر (learning rate)‏ (معدل التعلم مع الإعداد الافتراضي إلى 0.01( 
والزخم (momentum)‏ ونستروف nesterov‏ بقيمة منطقية ومعامل انحلال (decay)‏ اختيارية. 


خوارزميات تحسين معدل التعلم التكيفي 
تستخدم جميع إصدارات الانحدار الاشتقاقي التي تم تقديمها حتى الآن نفس معدل التعلم 
لحساب تحديث كل معامل على حدة. لکن النقطة المهمة هي أن معلومات الانحدارفي تحديث 


واحد يمكن أن تكون أكثر أهمية لمعامل واحد من أخرى. لذلك.في مثل هذه الحال يجب أن 
يتخذ المعامل ذات التحديثات الأكثر آهمية خطوة أكبرفي اتجاه الانحدار من المعامل ذات 


الفصل الثالت: الشبكات العصبية امامية التغذية 


التحديثات الأقل أهمية. بمعنى ST‏ لتسريع عملية التعلم» يجب أن يكون لكل معامل يجب 
تحديثه معدل التعلم الخاص Se‏ كل دورة تدريبية. 

ومن ثم. تم اقتراح خوارزميات مختلفة لحل هذه المشكلة من أجل تكييف معدل التعلمفي 
مراحل مختلفة من الخوارزمية لإنشاء تقارب شبكة آسرع. فيما يلي سنراجع بعض هذه 
الخوارزميات. 
Adagrad‏ 
يمكن أن يكون العثور على معدل التعلم الأمثل لخوارزمية التعلم العميق مشكلة معقدة. إذا تم 
تعیین معدل التعلم مرتفعًا جداء فقد يتقلب المعامل على نطاق واسع للوصول إلى مستوى خطأ 
مقبول. من ناحية آخری» فإن تحديد معدل تعليم منخفض للغاية سيؤدي إلى تقدم بطيء للغاية. 
تم تقديم Adagrad‏ لهذا الغرض. حيث يكون الاختيار اليدوي لمعدلات التعلم المختلفة لكل 
بُعد من أبعاد المشكلة غير عملي نظرًا لحجم الأبعاد. يقيس Adagrad‏ بشكل نسبي معامل معدل 
التعلم لكل بعد للتأكد من أن عملية التعلم ليست بطيئة جدا ولا متقلبة للغاية وغير دقيقة. للقيام 
بذلك. تجمع خوارزمية AdaGrad‏ دینامیکیّا بين المعرفة الهندسية للبيانات التي لوحظتفي 
التكرارات السابقة. ثم يطبق هذه المعرفة لضبط معدلات التعلم المنخفضة للحصول على ميزات 
أكثر شيوعًا ومعدلات تعلم أعلى لميزات نادرة نسبيًا. نتيجة لذلك. يتم تمييز الميزات النادرة 
وتمكين المتعلم من تحديد الميزات النادرة والتنبؤية العالية. 

في هذه الطريقة . يتم حساب معدل تعلم منفصل لكل معامل نموذج Fy‏ على التاریخ الكامل 
لمعامل الانحدار التربيعي للمعامل. يشبه الانحدار التربيعي أهمية الانحدار. يتم حسابها لكل 
معامل. ويتم حساب معدل التعلم الحالي بقسمة الانحدار الحالي على مربع الانحدار بالإضافة 
إلى قيمة صغيرة ل ع (لتجنب القسمة على الصفر). هذا يعني أنه كلما زادت التدرجات التي تم 
الحصول عليها مسبقا . قلت أهمية التدرج الحالي» وبالتالي قل معدل التعلم وبالتالي حجم 
الخطوة في الدورة التدريبية الحالية. المعادلة الرياضية لهذه الطريقة هي كما يلي: 


2 
Gt = Gra + Vi (4)‏ 
خوارزمية Adagrad‏ في keras‏ 
یمکن استخدام محسن Keras 3Adagrad‏ باستخدام مقتطف الكود التالي: 


from tensorflow.keras.optimizers import 0 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


adagrad = Adagrad(learning rate-0.0001, epsilon-le-6) 


model.compile(optimizer=adagrad, loss = ..., metrics- ...) 


AdaDelta 
جيدة؛ لکن الخوارزمية لھا بعض العيوب. بعد فترة» يصبح‎ Adagrad الفكرة وراء خوارزمية‎ 
تراكم التدرجات المربعة كبيرًا جدا بحيث يكون معدل التعلم المستخدم‌ني التحديثات منخفض‎ 
معالجة هذه المشكلة‎ AdaDelta جد وبالتالي لا يمكن إحراز أي تقدم تقریبًا. تحاول خوارزمية‎ 
عن طريق تقييد نافذة الانحدار الماضي المكدسة إلى حجم ثابت بدلاً من أخذ التاريخ بالكامل.‎ 
للقيام بذلك. بدلاً من جمع کل الانحدارات المربعة من بداية التعلیمات. افترض أننا قمنا بتخزين‎ 
المجموع المتناقص لهذه التدرجات. يمكننا اعتبار هذا كقائمة مستمرة لأحدث التدرجات لكل‎ 
وزن.في كل مرة نقوم فيها بتحديث الأوزانء نضع التدرج الجدیدفی أسفل القائمة ونحذف الأقدم‎ 
من البداية. للعثور على القيمة التي نستخدمها لتقسيم الانحدار الجدید. نضيف جميع القيم‎ 
على موضعھانی القائمة. يتم ضرب القيم‎ Fly الموجودةفي القائمةء لکن أولاً نضربها جميعًاني رقم‎ 
الأحدث بمقدار کبیر. بینما یتم ضرب القيم الأقدم بمقدار صغير جدا. وبالتالي» یتم تحديد‎ 
JÍ إجمالي التنفيذ لدینا بقوة من خلال التدرجات الحديثة. على الرغم من تأثرها بدرجة‎ 
بالتدرجات القديمة. باختصار. من أجل التنفيذ الفعال بدلا من تخزين التدرجات السابقة‎ 

المقابلة يتم استخدام المتوسط المتناقص لجميع التدرجات المربعة السابقة. 

تغير هذه الخوارزمية بشكل تكيفي معدل تحديث الأوزان في كل خطوة باستخدام الوزن 
الإجمالي لكل خطوة. نظرًا Adadelta oY‏ يضبط مقدار تدريب الوزن بشكل فردي . فإن أي 
وزن يبقى على منحدر حاد لفترة من الوقت سوف يتباطأ ليبقى بعیدا عن الشكل « ولكن عندما 
يكون هذا الوزن في جانب أكثر سلاسة » يمكن أن يأخذ خطوات أكبر. 

بصرف النظر عن هذا . يقدم مؤلفو المقال طريقة للتخلص من الحاجة إلى معدلات التعلم 
من الخوارزمية. يشيرون إلى أن وحدات معدل التعلم ومتوسط الانحطاط لجميع التدرجات 
التربيعية السابقة غير متطابقة. إنهم يحلون هذه المشكلة عن طريق استبدال معدل التعلم بمتوسط 
تنازلي آخر من المعامل المربع بتحديث AO?‏ هذا مشابه لآهمية تغييرات المعاملات السابقة. 
بقسمة الجذر الثانی على الجذر التربیعی لأهمية التدرجات السابقة . نحصل على قيمة أكثر أو 
أقل نسبة أهمية Glass‏ السابقة RENE‏ لتحديث المعاملات . أو بعبارة أخرى تأثير 
التدرجات السابقة على القيمة الحالية للمعامل. رمزها الرياضي على النحو التالي: 


E(A02) +e 
04,17 0¢ — ۲,6. سل‎ — 

E(V2, + ع‎ 
E(A02), = y. E(A9*),., + (1 — y) A82 


E(V5, = y-E(V*)e-1 + 0 — (۷ (0)? 


الفصل الثالت: الشبكات العصبية امامية التغذية 


keras في‎ Adadelta خوارزمية‎ 


یمکن استخدام محسن Keras (3Adadelta‏ باستخدام مقتطف الكود التالي: 
from tensorflow.keras.optimizers import 72‏ 


adadelta= Adadelta(learning rate-0.0001, epsilon=le-6) 
model.compile(optimizer- adadelta, loss = ..., metrics- ...) 


RMSprop 

تسمی الخوارزمية التي تشبه إلى حد Adadelta be‏ ولكنها تستخدم رياضيات مختلفة US‏ 
.RMSprop‏ الاسم مشتق من حقيقة أنه يستخدم عملية جذر متوسط التربيع root mean-)‏ 
Wes (squared‏ ما يتم اختصارهاك RMS‏ لتحديد المطابقة التي تمت إضافتها (أو نشرها) 
إلى التدرجات. رمزها الرياضى على النحو التالى: 


۷۰۲۷00 
6-4, = 6 0. 
t+1 t74 EW), +é 
E(V*), 21۷۰ )7۹( وم‎ )1 -( (9)? 
keras في‎ RMSprop خوارزمية‎ 


:Keras 3RMSprop باستخدام مقتطف الكود التالي يمكنك استخدام مُحسّن‎ 
from tensorflow.keras.optimizers import RMSprop 
rms_prop = RMSprop(learning rate-0.0001, epsilon=le-6) 


model.compile(optimizer- rms prop, loss = ..., metrics- ...) 


Adam 


تشترك الخوارزميات السابقةفي فكرة تخزين قائمة من التدرجات المربعة من أي وزن. بعد ذلك 
من خلال إضافة القيمفي هذه القائمة قد یقومون بإنشاء عامل مقياس بعد قياسها. يتم تقسیم 
deos‏ كل خطوة من خطوات التحدیث على هذا المجموع. يعطي 0 نفس الوزن 
لجمیع العناصر الموجودةني القائمة عند انشاء عامل التحجیم ley‏ یعتبر Adadelta‏ 
RMSprop;‏ أن العناصر الأقدم غير مهمة وبالتالي یکون لها حصة أصغر من الاجمالي. 

يعد تربیع التدرج قبل وضعهفي القائمة مفیدا رياضيًاء ولکن عندما نربّع رقمّاء تکون النتيجة 
إيجابية دائمًا. هذا يعني آننا نفقد الاتجاه الايجابي أو السلبي لذلك التدرچنی قائمتناء وهي 
معلومات مفيدة. لذلك لتجنب فقدان هذه المعلومات. یمکننا الاحتفاظ بقائمة ثانية من 
التدرجات دون تربیعها. یمکننا بعد ذلك استخدام LIS‏ القائمتین لاشتقاق معامل القیاس. هذا 
نهج حسابي يسمى تقدير اللحظة التكيفي «(adaptive moment estimation)‏ أو .Adam‏ 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


keras فى‎ Adam خوارزمية‎ 
:Keras Adam باستخدام مقتطف الکود التالي. يمكنك استخدام محسّن‎ 
from tensorflow.keras.optimizers import Adam 
adam= Adam(learning_rate=0.0001, beta_1=0.9, beta 2-0.999, epsilon-1e-6) 


model.compile(optimizer- adam, loss = ..., metrics- ...) 


Loss Function الخطأ‎ àJla 


في مرحلة تدريب الشبكة العصبية یتم استخدام النتيجة (score)‏ للإشارة إلى الحالة الحالية. بناء 
على هذه النتیجة يتم البحث عن معاملات الوزن المثلى. بمعنى آخر. تبحث الشبكة العصبية عن 
المعاملات المثلى باستخدام النقاط كدليل. يتم حساب هذه الدرجة من خلال دالة الخطأ (دالة 
الخسارة) Fly‏ على قياس مقدار الخطأ بين القيم المتوقعة والفعلية. توضح الصيغة البسيطة التالية 
دالة الخطأ كمعادلة: 

و - y‏ ع Loss‏ 
حیث آن y‏ و7 هي القيم الفعلية والقيم المتوقعة . على التوالي. 


انهالمیهٌیتم تقییمھابشڈل دوری أثناء التدريب وتعبرعن معدل تقدم التعلم. 


باستخدام دالة الخطأ ء یمکننا تقييم LAS‏ نمذجة الخوارزمية على مراجعة البيانات. يعتمد 
اختيار دالة الخطأ على نوع المشكلة وستختلف دالة الخطأ هذه باختلاف مشاكل التصنيف 
والانحدار. في مشكلة التصنيف . نعتزم توقع توزيع احتمالي لمجموعة الفتات. OW‏ في مشاكل 
الانحدار ¢ سنجد قيمة معينة. 


Jiga‏ الخطاً للانحدار 


كما ذکرنا سابقاء تتعامل نماذج الانحدار مع التنبؤ بقيمة مستمرق مثل سعر السيارة والتنبو 
بالقرض وما إلى ذلك.في هذا القسم. يتم سرد دوال الخطأ للانحدار الا کثر استخدامّا. 
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Mean Square Error 


هي إحدى دوال الخطأ الأكثر شهرة في الانحدار » وتحسب متوسط الفرق التربيعي بین القيم 
الفعلية والمتوقعة بالمعادلة التالية: 


n 
1 
MSE(y,$) = Y 0 - ĵi)? 
i=1 


حيث 1 هو عدد العينات التعليمية. 
باستخدام مقتطف الکود التالي يمكن استخدام دالة MSE‏ في :Keras‏ 
from tensorflow import keras‏ 


loss fn = keras.losses.MeanSquaredError() 
model.compile(loss-loss fn, optimizer-..., metrics- ...) 


Mean Absolute Error 


تحسب هذه الدالة متوسط فرق القيمة المطلقة بين القيم الفعلية والمتوقعة بالمعادلة التالية: 


n 
1 
MAEQ, 3) ==) ly = او‎ 
i=1 


باستخدام مقتطف الكود التالي» يمكن استخدام دالة :Keras 3MAE‏ 
from tensorflow import keras‏ 


loss fn = keras.losses.MeanAbsoluteError() 
model.compile(loss-loss fn, optimizer-..., metrics- ...) 


Jiga‏ الخطاً للتصنیف 
في هذا القسم. يتم وصف دوال الخطأ المتعلقة بالتصنیف. 
Cross Entropy‏ 


تحسب هذه الدالة المسافة بين توزيعين احتماليين ويتم تعريفها على النحو التالي: 


1 n 
Cross Entropy(y,9) = -» yilog($) 
i=1 


باستخدام مقتطف الكود Jul‏ « يمكن استخدام دالة الخطأ :Keras (Cross Entropy‏ 


from tensorflow import keras 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


loss fn = keras.losses.CategoricalCrossentropy() 


model.compile(loss-loss fn, optimizer=..., metrics- ...) 
Binary Cross Entropy 
للمصنفات الثنائية» والتي يتم تعريفها على النحو‎ Binary Cross Entropy يتم استخدام‎ 


التالى: 
"NE. 5 :‏ ۱ 
Binary Cross Entropy(y,9) = — “Yu log(9) + (1 — yi) (1 — log($)))‏ 
i-1‏ 


Binary Cross Entropy باستخدام مقتطف الكود التالی» يمكن استخدام دالة الخطاً‎ 
:Keras 
from tensorflow import keras 


loss fn = keras.losses.binary. crossentropy 
model.compile(loss-loss fn, optimizer=..., metrics- ...) 


الانتشار الخلفي Backpropagation‏ 

التعلمنی شبكة عصبية متعددة الطبقات يشبه بشكل عام تعلم بیرسیبترونء مع الأوزان 
المتطابقة. ومع ذلك. فان الطريقة التي يجب أن يتغير بها كل وزن تكون أكثر صعوبة بقلیل.في 
حالة بیرسیبترون. فإن الضرب الداخلي فقط بین بيانات الإدخال والأوزان هو المطلوب للحصول 
على ناتج العقدة. GE‏ لوجود طبقات متعددةنی MLP‏ » يتم تحديد ناتج العقدةفي الطبقة الأخيرة 
من خلال أخذ الضرب الداخلي للأوزان ومخرجات العقدفي الطبقة السابقة. يتم حساب کل من 
هذه القیم الحديثة بنفس الطريقة. هذا يعني أن الخطأنی إخراج الطبقة النهائية یمکن أن یکون 
بسبب آوزان الطبقة الأخيرة بالاضافة إلى آوزان الطبقة (الطبقات) السابقة. لذا فإن السؤال هو 
وزن أي طبقة سبب هذا الخطأ. يشار إلى هذه المشكلة أحيانًا باسم تخصیص الائتمان ( credit‏ 
(assignment‏ . الطريقة التي یمکن أن تحل هذه المشكلة تسمی الانتشار الخلفي. 

ربما تکون خوارزمية الانتشار الخلفي هي اللبنة الأساسیةنی الشبكة العصبية. يعد الانتشار 
الخلفيني الأساس طريقة £53 لحساب التدرجات بشکل فعالفي الشبکات العصبية متعددة 
الطبقات. تستخدم هذه الخوارزمية قاعدة حساب التفاضل والتکامل وتحسب تدرج الخطأفي 
مسارات مختلفة من عقدة واحدة إلى المخرجات وتتکون من مرحلتین رئیسیتین تسمی مرحلة 
الانتشار الامامي ومرحلة الانتشار الخلفي.في هذه الخوارزميةء بعد كل تمريرة للأمامفي AKAI‏ 
تقوم مرحلة الانتشار الخلفي بإجراء تمريرة عكسية وفي نفس الوقت تعدل معاملات النموذج 
(الأوزان والتحیزات). 
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باختصار» على مستوى Ule‏ جداء sia‏ على ما قيل حتى OM‏ تكرر الشبكة العصبية هذه 
الخطوات وتنفذها عدة مرات أثناء التدريب. (الشكل 4-3): 


* مرحلة الانتشار الامامی لتوليد المخرجات Fy‏ على المعاملات الحالية وبيانات 
الإدخال. ١‏ 

a‏ مرحلة حساب دالة الخطا للفرق بين المخرجات الحالية والهدف. 

" مرحلة الانتشار الخلفی لحساب الانحدار للخطأ بالنسبة للمعاملات. 

* مرحلة تحسین التدرجات لتحديث المعاملات لتقلیل الخسائر للتکرار التالي. 


الطبقة المخقية 2 الطبقة المخقية 1 


©“ تحدیث التنشیط 
مرحلة الاتتشار الخلقي 


الشكل 4-3. عملية تدريب الشبكة العصبية 


تھیئة الأوزان للمعاملات 

عنصر مهم جدافي تصميم الشبكات العصبية هو تهيئة الأوزان.في الشبكات العصبية» يجب 
اختيار القياس الكمي الأولي للأوزان بعناية فائقة. على سبيل المثال. إذا كان للعديد من الخلايا 
العصبيةفي طبقة 2 a‏ الأوزان. فسوف تتلقى نفس التدرجات. نتيجة لذلك. يتم تحسين 
جمیع الخلایا العصبية بنفس الطريقة عند تصحیح التدرج. بمعنی آخره يتم حساب نفس النتائج 
لكل منهم. مما يؤدي إلى إهدار سعة النموذج. وبالتالي. فإن الشبكة المكافئة لسلسلة من الطبقات 
هي أحادية العصبونات. 

إذا عرفنا التكوين النهائي (أو حتى تقریبًا)ء فيمكننا تعديلها للوصول بسهولة إلى النقطة المثلى 
في عدد قليل من التكرارات. لکن للأسف. لا نعرف أين هو نقطة المحلي الامثل. ومن ثم تم 
تطوير واختبار استراتيجيات تجريبية بهدف تقليل وقت التدريب. من الناحية المثالية. يجب أن 
تظل تباینات التنشيط ثابتةفي جميع أنحاء الشبكة تقریبًا بالإضافة إلى تباينات الوزن بعد كل خطوة 
الانتشار الخلفي. هذان الشرطان ضروريان لتحسين عملية التقارب ولمنع مشاكل تلاشي التدرج 
والانفجار. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


عادق يتم تهيئة أوزان الشبكة العصبية باستخدام توزيع غاوسي بمتوسط صفر وانحراف 
معياري صغير. ومع ذلك. فإن المشكلة تکمن‌في أن توزيع ناتج خلية عصبية تمت تهيئتها عشواتيًا 
له تباین يزيد مع عدد المدخلات. لتنعيم تباین الإخراج لكل خلية عصبية إلى 1ء يكفي استخدام 
التوزيع الطبيعي القياسي وقياس الوزن P‏ على الجذر التربيعي لسعة الادخال Thin,‏ وهو عدد 
المدخلات: 

7۷)0,1( 
Nin 

تسمى هذه الطريقة مقياس التباين Sos s (variance scaling)‏ تطبيقها بالإضافة إلى عدد 
وحدات الادخال ely. (Fan-In)‏ على عدد وحدات الإخراج (Fan-Out)‏ أو متوسطها. هذه 
الفكرة بديهية للغاية ء إذا كان عدد وصلات الإدخال أو الإخراج کبیرا . فيجب أن تكون الأوزان 
أصغر لتجنب المخرجات الكبيرة. 

يمكن استخدام variance scaling‏ باستخدام مقتطف التعليمات البرمجية :Keras (à, JUJI‏ 


Wo 


from keras import initializers 
initializer = initializers.VarianceScaling(scale-1.0, mode='fan_in', 
distribution='normal') 


حلل Gloret‏ و Benjio‏ الانحدارات بعد الانتشار وأوصيا Hel‏ (المعروفة باسم تهيئة 


:(Xavier 


2 
a‏ 
حيث Nout Sa‏ عدد وحدات الاخراج. هذا نوع أقوى من الطريقة السابقة . لأنه يأخذ في 
الاعتبار كل من اتصالات الإدخال والإخراج (والتي بدورها هي اتصالات الإدخال). الهدف هو 
محاولة تلبية المطلبين المقدمين سابقا. لقد ثبت أن تهيئة Xavier‏ فعالة للغاية فى العديد من 
البنى العميقة CU‏ ما تكون الخيار الافتراضي. l‏ 
يمكن استخدام Keras ¿Xavier‏ باستخدام مقتطف الشفرة البرمجية التالي: 


from keras import 65 
initializer = initializers.GlorotNormal () 
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کل هذه الطرق مشتركة بينهم ويمكن تبادلها فى كثير من المواقف. كما ذكرنا سابقاء 
فان Xavier's‏ أحد أقوى المضيفين فى جميع الجوانب لديه Gla‏ جيدة. ومع ذلک. يمكن 
has‏ التحقق من Aan‏ مجموعة البيانات الفعلية لتأكيد ذلك. 


المعاملات 


في أي شبكة عصبية عمیقة هناك نوعان مختلفان من المعاملات: آحدهما هو معامل النموذج 
والاخر هو المعامل الفائق (hyper parameter)‏ معاملات النموذج هي تلك المعاملات التي 
يتم اکتشافها GE‏ بواسطة النموذج من بیانات التدریب.في المقابل المعاملات الفائقة هي 
المعاملات یمکن تعدیلها لتحقیق أفضل آداء للنموذج. بمعنی آخر لا يتم تعلم هذه المعاملات 
آثناء التدریب. ولکن يتم تعيينها من قبل المستخدم‌في بداية عملية التعلم. تؤثر المعاملات الفائقة 
على عملية التعلم بأكملهاني الشبكة العصبية. تتضمن بعض المعاملات الفائقة عدد الطبقات 
المخفية التي تحدد بنية الشبكة. معدل التعلم هو معامل فائق آخر یساعد على فهم LAS‏ تدریس 
الشبکات. يلعب اختیار المعامل الفائق الامثل دورًا مهمّافي عملية تدریب الشبكة با کملها. 


تعد المعاملات الفائقة وسیطات نموذحیهیتم تعيين قیمهاقبل بدء عملیه التعلم. 


TENET 
لتحقيق هذا‎ (task) الغرض الرئيسي من بناء نموذج التعلم العميق هو تعلم وظيفة أو مهمة‎ 
الهدف. نقوم بتغذية شبكة بيانات التدريب. بعد تدريب شبكة عصبية بالانحدار الاشتقاقي‎ 
والانتشار الخلفي. نفترض أن هذا الأداء الجيد يظل على بيانات غير مرئية (أي البيانات التي لم‎ 
يتم تضمينها آثناء التدريب). ومع ذلك. هذا لا يعني بالضرورة أن النموذج قادر على التنبؤ بدقة‎ 
بإخراج البيانات غير المرئية. لذلك. يتم تقديم مجموعتين إضافيتين من البيانات للتحسينء‎ 
مجموعة التحقق من الصحة والمجموعة التجريبية. كل مجموعات البيانات الثلاث مستقلة عن‎ 
مشتركة بينها.‎ OVE بعضها البعض. لذلك لا توجد‎ 
تستخدم مجموعات التحقق من الصحة في الشبكات العصبية بشکل شائع لضبط المعاملات‎ 
للنموذج مثل بنية الشبكة أو معدلات التعلم. تستخدم مجموعة الاختبار فقط للتقييم النهائي من‎ 
أجل تقییم أداء الشبكة في البيانات غير المرثية. إذا لم تكن الشبكة العصبية معممة بشکل جيد‎ 
(القدرة على نقل المعرفة إلى البيانات غير المرئية) . أي أن فقدان التدريب أقل من فقدان‎ 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


الاختبار. وهذا ما یسمی الضبط الزائد -overfitting‏ یطلق على السيناريو العكسي . عندما تكون 
خطاً الاختبار أقل بكثير من خطأ التدريب . الضبط الناقص .underfitting‏ (الشكل 5-3). 


الوقت (دورة) 


الشكل 5-3. سلوك التعميم في منحنى التعلم وفق معيار الدقة في البيانات التدريبية والاختبارية 


الضبط الزائد overfitting‏ هو ظاهرة تؤثر في النهاية على جميع الشبكات العصبية. هذا 
يرجع إلى حقيقة أنهم يتعلمون فقط من مجموعات البيانات التدريبية: مجموعة فرعية من جميع 
البيانات الممکنة. يحدد مدى جودة أدائهم في هذه المجموعة الفرعية مقدار المكافأة أو المعاقبة 
على أوزانهم. بمعنى ST‏ حتى لو كان هدفنا هو المعرفة المعممة . فإن الشبكات نفسها مصممة 
لتحقيق دقة عالية فی مجموعات بيانات محددة. بهذه الطريقة ء سيبدأون فی النهاية فى الحفاظ 
على مجموعة لبیانات الخاصة بهم . بالنظر إلى قدرتهم على القيام بذلك. -- beii‏ إلى 
زيادة التحمیل على الشبکة. تتذکر الشبكة التی بدأت فى التجاوز المیزات الفريدة والتفاصیل 
المحددة للبيانات الموجودة حصريًا في R‏ بالات التدریب وتخلط بینها كمفاهيم عامة 
مشتركة بين جميع مدخلات البيانات المماثلة. لذلك e‏ ستواجه مثل هذه الشبكة وقتا أكثر صعوبة 
فی تحليل المدخلات الجديدة وغير المألوفة (مجموعات البيانات التجريبية). وذلك OY‏ بعض 
السمات المميزة التي تم تحديدها مسبقاً غير موجودة في البيانات الجديدة. بالإضافة إلى ذلك ‏ 
مع زيادة دقة الشبكة آثناء التدریب. تزداد الفجوة بين الخطأ الناتج أثناء التدریب والخطأ الناتج 
آثناء الاختبار. ومع ذلك ۰ في بعض الاحیان یکون استخدام نموذج معقد أمرًا لا مفر منه عند 
محاولة حل المهام المعقدة للغاية. تسمح إضافة المزید من الطبقات أو الخلایا العصبية بمستوی 
آعلی من استخراج المیزات ۰ مما قد يژدي إلى مستوی آعلی من الدقة إلى نقطة معينة. 

ile‏ ما پرتبط overfitting‏ و underfitting‏ في الشبکات العصبية العميقة ارتباطًا مباشرا 
بقدرة النموذج. ببساطة . ترتبط سعة النموذج لشبكة imas‏ عميقة ارتباطًا مباشرًا بعدد 
المعاملات داخل الشبكة. تحدد سعة النموذج مدى قدرة الشبكة العميقة على ملاءمة مجموعة 
واسعة من الوظائف. إذا كانت السعة منخفضة جدا . فقد لا تتمكن الشبكة من تكييف مجموعة 
التدريب (أقل من اللازم) ۰ بينما قد تؤدي سعة النموذج الكبيرة جدا إلى الاحتفاظ بعينات 
التدريب (زيادة العرض). عادة لا يمثل عدم الملائمة مشكلة بالنسبة للشبكات العصبية العميقة. 
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هذا OY‏ يمكن حل هذه المشكلة باستخدام بنية شبكة أقوى أو أعمق مع المزيد من المعاملات. 
ومع ذلك » من أجل التمكن من استخدام الشبكات العميقة للبيانات الجديدة وغير المرثية » 
يجب التحكم في -overfitting‏ تسمی ike‏ تقليل تأثير overfitting‏ أو منعه 
بالتنظيم (regularization)‏ . التنظيم هو وسيلة للتحكم في overfitting‏ « أو بالأحر ى لتحسين 
خطأ التعميم. 

لا ينبغي التغاضي عن ملاءمة البيانات التعليمية. OY‏ النجاح في التعميم أو حتى الملاءمة 
الكافية في البيانات التعليمية يعتمد عليها. خلاف ذلك . قد یمیل النموذج إلى التكيف بشكل 
مفرط مع الميزات المحددة لبيانات التدريب. يعتمد هذا ء من ناحية ء على كمية البيانات المتاحة 
للتدريب » حيث قد لا تكون مجموعة التدریب الصغيرة كافية لتحدید الأنماط والهياكل العامة « 
ومن ناحية أخرى . على جودة بيانات التدريب ؛ خاصة عندما يتعلق الأمر بالتعلم من خلال مراقبة 
صحة علامات الهدف التي تم تعيينها بالفعل من قبل البشر أو حتى الخبراء البشريين. بالإضافة 
إلى ذلك . من الضروري التأكد من أن توزيع وخصائص بیانات التدريب متوافقة مع بيانات 
الاختبار أو أنها متوافقة بشكل عام مع البيانات التي تم التخطيط للنموذج الذي تم تعلمه 
لاستخدامه في المستقيل. 
التوقف المبكر (Early stopping)‏ 


في تدريب النموذج SU‏ عادة ما ينخفض خطأ التدريب والتحقق من الصحة بمرور الوقت؛ 
ولکنفی مرحلة ماء يبدأ خطأ التحقق من الصحةفي الزيادة.في هذه المرحلةء يبدأ النموذجفي 
5 ومعرفة الميزات المحددة لمجموعة التدريب. يتم استخدام طریقة التوقف المبكر 
للتوقف عند هذه المرحلة. تقوم هذه الطريقة بإرجاع النموذج بأقل خطأ تحقق من الصحة. 
لذلك. يتطلب التدريب مجموعة من عمليات التحقق من الصحة لتقييم أخطاء التحقق بشكل 
دوري. 

في هذه الطريقة. لا يتوقف التدريب بعد الزيادة الأولىفي خطأ التحقق من الصحة. وبدلاً من 
ذلك تتلقى الشبكة مزیدً من التدريب حتى تصل إلى عتبة ade"‏ الدورات دون تقدم". بعد ذلك. 
من خلال تقييم الدورات اللاحقة. نتلقى عملية التحقق من الخطأ لمزيد من التدريب. على سبيل 
المثالء إذا لم يتحسن خطأ التحقق من الصحة 10 مرات متتالية على أفضل خطأ تحقق من 
الصحة. يتم إيقاف التدريب ويتم إرجاع النموذج الذي يحتوي على أفضل a‏ التحقق من 
الصحة. 
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الشكل 6-3. التوقف المبكر 


يراقب التوقف المبكر أداء النموذج فى كل دورة zLu‏ على مجموعة التحقق ويعتبر نهاية 


التدريب مشروطۂ بأداء التحقق. 


الحذف العشوائي (Dropout)‏ 

الحذف العشوائی هو طريقة تنظيمية للشبكات العصبية. الفكرة الأساسية هی إزالة الخلايا العصبية 
بشكل عشوائي عند كل تكرار. إذا تم حذف خلية عصبية» فان جميع التدرجات التابعة تکون 
صفرية وبالتالي لا يتم عرض الوزن المقابل. إن عملية Las‏ هذه الطريقة هي أنهي كل فترة تكرار 
للتدریب. تظل کل خلية عصبية مع احتمال ص ۰ ومع احتمال p)‏ - 1)ستتم إزالتها من الشبكة. 
سيؤدي هذا إلى عدم التعرف على جميع الميزاتفي كل فترق وسیتم استخدام خصائص مختلفة 
للتصنيففي كل مرة يتم فيها إدخال البيانات. يوضح الشكل 4-3 شبكة عصبية نموذجية وشبكة 
عصبية مع حذف عشوائي. 


الشكل 6-3. شبكة عصبية (أ) قبل الحذف العشوائي و (ب) بعد الحذف العشوائي 


التفسير الأكثر شیوعا لتأثير الحذف العشوائي هو أنه يعلم ضمنيًا مجموعة (ensemble)‏ من 
النماذج. لأن كل تكرار ينتج نسخة مختلفة من النموذج ويتم تحديث كل وزن بمجموعة من 
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الأوزان الأخرى. يعد التعلم الجماعي للعديد من النماذج أسلوبًا USUS‏ التعلم الالي لتقليل خطأ 
التعميم بفكرة أن التنبؤ غير الصحيح لنموذج واحد يمكن تعويضه بواسطة نماذج أخرى. 

من ناحية آخرى» يمكن تفسير الحذف العشوائي على أنه يتم إجبار الشبكة العصبية على 
المبالغةفي تمثيل المعرفة المكتسبة من خلال التعلم. نظرًا OY‏ بعض المعرفة حول فتات أو 
مدخلات معينة ليست متاحة بالضرورةفي بعض التکرارات: فإن المعرفة المشفرةفي هذه الخلايا 
العصبية لهذه المدخلات يتم إزالتها الآن. وبالتالي» من الصعب على الشبكة العصبية أن تملا 
عينات تدريب محددة OY‏ بعض الخلايا العصبية ليست متاحة دائمًا. 


يمكن الوصول إلى الحذف التصادفي باستخدام مقتطف الشفرة التاليفي :Keras‏ 


from keras.layers import Dropout 
from keras.models import Sequential 


model = Sequential () 
model .add(Dropout(@.5)) 


(Batch Normalization) التسوية الجماعية‎ 


يؤدي تدريب الشبكة إلى تغییر آوزان کل طبقة. يتسبب هذا التغییرنی تغيير توزيع (distribution)‏ 
المدخلات أثناء ترقية الطبقات السابقة. ویسمی هذا التأثير إزاحة المتغير الداخلي ( internal‏ 
Ls . (covariate shift‏ هذه المشكلة OY‏ المعاملات تتغير باستمرار أثناء عملية التدریب. والتی 
بدورها تغير قيم دوال التنشيط. يؤدي تغییر قيم الإدخال من الطبقات الأولية إلى الطبقات التالية 
إلى تقارب أبطأ أثناء عملية التدریب. OY‏ بيانات التدريب للطبقات اللاحقة غير مستقرة. بمعنی 
آخره الشبكات العميقة هي مزيج من عدة طبقات ذات وظائف مختلفة وكل طبقة لا تتعلم فقط 
كيفية تعلم التمثیل العام من بداية التدریب. ولکن عليها أيضًا أن تتقن التغییرات المستمرةفي 
توزیعات المدخلات وفقّا لما سبق. طبقات. بینما یقوم المحسٌن بتحدیث المعاملات على 
افتراض آنها لا تتغيرفي الطبقات الأخرى ویقوم بتحدیث کل الطبقات‌ي نفس الوقت. سيودي 
هذا إلى نتائج غير مرغوب فیها عند الجمع بين دوال مختلفة. من أجل التعامل مع التغييرفي 
التوزيع أثناء التعلم» تم تقدیم التسوية الجماعية S(Batch Normalization)‏ هذه الطريقةء يتم 
إجراء التسوية على بيانات الإدخال أحادية الطبقة بحيث يكون لها متوسط صفر وانحراف معياري 
بواحد. من خلال وضع التسوية الجماعية بين الطبقات المخفية وإنشاء خاصية تباین مشتركة e‏ 
نقوم بتقليل التغييرات الداخلية لطبقات الشبكة. 


من خلال تطبيق التسوية الجماعية. يمكن زيادة Jaco‏ التعلم. وهذا يؤدى إلى تعلم 


آسرع. بالإضافة إلى «JA‏ تتزايد dal‏ مقارنة بنفس الشبكة دون التسوية الجماعية. 


يمكن استخدام التسوية الجماعية باستخدام مقتطف الشفرة التالي نی :Keras‏ 


from keras.layers import BatchNormalization 
from keras.models import Sequential 
model = Sequential () 


model .add(BatchNormalization()) 


تنفيذ الشبكة العصبية في keras‏ 
في هذا القسم. سوف نتعلم LAS‏ تنفيذ شبكة عصبية امامية التغذیةنی Keras‏ في المثال الأولء 
قمنا ببناء شبكة عصبية للتنبؤ ہما إذاكانت أسعار المنازل أعلى أو أقل من المتوسط. 
مجموعة البيانات التي سنستخدمها مقتبسة من بيانات مسابقة ' geo Kaggle‏ بقيمة منزل 
Zillow‏ لقد WWE‏ عدد ميزات الادخال وغيرنا العمل للتنبؤ Ob‏ سعر المنزل سيكون أعلى أو 
أقل من المتوسط. استخدم الرابط الموجودفی الحاشية السفلیة" لتنزيل مجموعة البيانات المعدلة. 
قبل البرمجة لبناء أي نموذج للتعلم IM‏ فإن أول شيء يتعين علينا القيام به هو وضع GUL‏ 
في تنسيق مناسب للخوارزمية.في هذا المثال» نقوم بما يلي: 
* نقرأ أولاً ملفات CSV‏ ونحولھا إلى مصفوفات. المصفوفات هي تنسيقات بيانات 
يمكن للخوارزمية معالجتها. 
" نقسم مجموعة البيانات الخاصة بنا إلى خصائص إدخال تسمى X‏ وتسمية (اخراج) 
تسمى Y‏ 
t‏ نقوم بتسوية البيانات. 
= نقسم مجموعة البيانات إلى مجموعة تدريب ومجموعة التحقق ومجموعة الاختبار. 
هيا بنا Nas‏ أدخل أولاً مكتبة pandas‏ واکتب الكود التاليفي خلية notebook‏ واضغط على Alt‏ 
Enter‏ +: 
import pandas as pd‏ 
هذا يعني فقط أنني إذا أردت الاشارة إلى الكود الموجودني حزمة pandas"‏ ”ء فسأشير إليه على 
أنه 4م. ثم نقرأ ملف CSV‏ الخاص بنا عن طريق تنفيذ الكود التالي: 
df = pd.read_csv('housepricedata.csv' )‏ 
يعني هذا السطر من التعليمات البرمجية Ul‏ نقرأ ملف ‘housepricedata.csv'‏ ونحفظففي متغير 
df‏ إذاكنت تريد معرفة ما هو موجودنی df‏ ۰ فما عليك سوی كتابة ]1 نی خلية notebook‏ واضغط 
على Alt + Enter‏ : 


df 


1 https://www.kaggle.com/c/zillow-prize-1/data 
2 https://drive.google.com/file/d/1h6LPHNs4F_FnxwfdE_fCIsGeEh30tDBf/view?usp=sharing 
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يجب أن تبدو مخرجاتك مثل هذا: 


LotAraa OverallQual OverallCond TotalBsuts? FullBath HalfBath BedroonxbeCr TotRnsAbvGrd Fireplaces GarageArea AbovaMadianPrica 
0 $450 7 5 $56 2 3 8 0 48 1 
1 2600 5 8 1262 2 0 3 6 1 460 
2 11250 7 920 3 6 1 508 1 
3 9550 7 5 756 1 0 3 7 1 2 0 
4 14260 8 5 1145 4 9 1 836 1 
1455 717 5 5 gs3 2 1 3 7 1 460 1 
1458 13175 5 5 1542 3 2 00 1 
1457 9042 7 9 1152 2 0 4 9 2 252 
1458 sn? 6 1078 1 0 2 0 4 0 
1459 9937 6 1256 1 1 3 6 a 276 0 


خصائص الادخال لدینا موجودةني الأعمدة العشرة الأولى.في العمود الأخير لدینا الميزة (التسمیة) 
التي نرید توقعها: هل سعر المنزل أعلى من المتوسط SY el‏ (1 ل "نعم" و C" "O"‏ الآن بعد 
أن رأينا شكل البیانات نرید تحویلها إلى مصفوفات حتی یقوم الجهاز بمعالجتها: 

dataset = df.values 
.إل )في‎ values e) فقط‎ df mö لتحویل إطار البيانات الخاص بنا إلى مصفوفت نقوم بتخزين‎ 
dataset ما عليك سوى كتابة‎ “dataset” zx لمعرفة ما يوجد داخل‎ . dataset متغير‎ 
(Alt + Enter) وتشغيل الخلية‎ notebook خلية‎ 


dataset 
كما تری. يتم تخزينها جميعافي مصفوفة الان:‎ 

array([[ 8450, 7, 5. ہے‎ 0, 548, 1], 

[ 9600, 6, By ances 1, 460, 

[11250, T, 5, ..., 1, 608, 

[ 9042, 7, 9, ..., 2, 252, 1], 

[ 9717, 5, 6, ..., 0, 240, 01, 

)011 ,276 ,0 میتی ,6 ,5 ,9937 [ 


نقسم الآن مجموعة البيانات الخاصة بنا إلى سمات الإدخال OX)‏ والسمة التي نريد توقعها CY)‏ 
للقيام بهذا القسمة. نقوم ببساطة بتعيين الأعمدة العشرة الأولى من المصفوفة إلى متغير يسمى 
X‏ والعمود الأخير من المصفوفة إلى متغير يسمى Y‏ كود القيام بالمهمة الأولى كما يلي: 
X = dataset[:, 0:10]‏ 

قد يبدو هذا غريباً بعض الشيء لکن اسمحوا لي أن آشرح ما بالداخل. كل شيء قبل الفواصل 
() يشير إلى صفوف المصفوفة وكل شيء بعد الفواصل يشير إلى أعمدة المصفوفة. نظرًا WY‏ 
لا نفصل الصفوف. WB‏ نضع ":" قبل الفاصلة. هذا يعني أخذ جميع صفوف مجموعة البيانات 
ووضعهاني -X‏ نرید استخراج الأعمدة العشرة الأولی. لذلك يعني "0:10" بعد الفاصلة أخذ 
الأعمدة من 0 إلى 9 ووضعهاني × (لم يتم تضمین العمود 10). تبدأ الاعمدة من الفهرس 0ء 
لذا فإن الاعمدة العشرة الأولى هي أعمدة من 0 إلى 9. 
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ثم نقوم بتعيين العمود الأخير من مصفوفتنا إلى لا.: 
Y = dataset[:,10]‏ 
لقد قسمنا GYI‏ مجموعة البيانات الخاصة بنا إلى خصائص الإدخال CX)‏ والعلامات: أي ما نريد 
توقعه CY)‏ الخطوة التاليةفي المعالجة هي التأكد من أن مقياس خصائص الإدخال هو نفسه. 
IE‏ المیزات مثل مساحة الأرضية بالآلاف. وتتراوح BUS‏ الجودة الإجمالية من 1 إلى 10ء 
وعدد المواقد هو 0 أو 1 أو 2. هذا يجعل من الصعب بدء الشبكة العصبيةفي وقت مبكرء مما 
يسبب بعض المشاكل العملية. تتمثل إحدى طرق قياس البياناتفي استخدام حزمة scikit-‏ 
.Learn‏ ندخله أولا: 
from sklearn import preprocessing‏ 
يقول الكود أعلاه أنني أريد استخدام كود المعالجة المسبقةفي حزمة sklearn‏ بعد ذلك نستخدم 
دالة تسمى مقياس min-max‏ الذي يقيس مجموعة البيانات بحيث تكون جميع خصائص 
الإدخال بين 0 و1.: 


min max scaler = preprocessing.MinMaxScaler() 
X scale = min max scaler.fit transform(X) 


لاحظ آننا اخترنا 0 و1 للمساعدةني تدريب شبكتنا العصبية. يتم الآن تخزين مجموعة البيانات 
المقاسة Qu‏ مصفوفة .X_scale‏ إذاكنت تريد أن تری كيف يبدو e Xscale‏ فما عليك سوى 
تشغيل الخلية التالية: 


X_scale 
میں کے 5 ع‎ 
سترى الإخراج التالي:‎ cone] بعد تنميك الكود‎ 
array([[0.0334198 , 0.66666667, 5 js, 5 , 0. 
0.3864598 ], 
[0.03879502, 0.55555556, 0.875 , «++, 0.33333333, 0.33333333, 
0.32440056], 
[0.04650728, 0.66666667, 0.5 p ..., 0.33333333, 0.33333333, 
0.42877292], 
[0.03618687, 0.66666667, 1. , ..., 0.58333333, 0۰66666667, 
0.17771509], 
[0.03934189, 0.44444444, 0.625 ×× مہ‎ 0.25 , 0. 
0.16925247], 
[0.04037019, 0.44444444, 0.625 و‎ «++, 0.33333333, 0. 
0.19464034]]) 


الآنء وصلنا الى المرحلة الأخيرةفي معالجة البيانات» وهي تقسيم مجموعة البيانات إلى مجموعة 
التدریب ومجموعة التحقق ومجموعة الاختبار. لهذا سنستخدم الكود scikit-Learn‏ المسمى 
"train test split‏ والذي كما يوحي اسمه یقسم مجموعة البیانات الخاصة بنا إلى مجموعة 
تدریب ومجموعة تجريبية. آولا نقوم بادخال الکود الذي نحتاجه: 


from sklearn.model_selection import train_test_split 


ثم نقسم مجموعة البيانات الخاصة بنا على النحو التالي: 
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X_train, X_val_and_test, Y_train, Y_val_and_test = 
train_test_split(X_scale, Y, test_size=0.3) 


يخبر مقتطف الكود أعلاه scikit-Learn‏ أن حجم ۷۵1-800-656 سیکون 7.30 من إجمالي 
مجموعة البيانات. يخزن الكود البيانات المقسمةفي أول أربع متغيرات على يسار علامة التساوي. 
لسوء الحظء تساعدنا هذه الدالة فقطنی تقسيم مجموعة البيانات الخاصة بنا إلى جزأين. نظرًا 
لأننا نريد مجموعة تحقق منفصلة ومجموعة اختبار. یمکننا استخدام نفس الدالة لإعادة التوزيع 


:val and test فى‎ 


X val, X test, Y val, Y test - train test split(X val and test, 
Y val and test, test size-0.5) 


الكود أعلاه يقسم حجم val_and_test‏ بالتساوینی مجموعة التحقق ومجموعة الاختبار. 
باختصار, لدينا الآن إجمالى ست متغيرات لمجموعة البيانات التى سنستخدمها: 

X train ® 

X val" 

X test * 

Y train " 

Y val * 

Y test "‏ 
إذا كنت تريد أن ترى كيف تبدو المصفوفات لكل منها (أي ما هى أبعادها)» ما عليك سوى 
تشغيل الكود التالى: 


print(X_train.shape, X_val.shape, X_test.shape, Y_train.shape, 
Y val.shape, Y_test. shape) 


),219( ),219( ),1022( )10 ,219( )10 ,219( )10 ,1022( 
كما تری. تحتوي مجموعة التدريب على 1022 نقطة بیانات. بینما تحتوي كل مجموعة من 
مجموعات التحقق والاختبار على 219 نقطة بيانات. تحتوي المتغيرات X‏ على 10 خصائص 
إدخال» بينما تحتوي المتغيرات Y‏ على خاصية تنب واحدة فقط. 
حان الوقت OV‏ لبناء وتدريب شبكتنا العصبية الأولى. أول شيء يتعين علينا القيام به هو 
تكوين البُنية. لنفترض آننا نرید شبكة عصبية ذات بُنية على النحو التالي: 
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OO 
a ^v » ا‎ 


طبقة المخرجات الطبقة المخقية 2 الطبقة المخقية 2 طبقة المدخلات 
)1 عصیون) )32 عصبرن) )32 عصیون) )10 (sae‏ 


بعبارة آخری» نريد هذه الطبقات: 


* الطبقة المخفية 32:1 خلية عصبية مع دالة التنشيط ReLU‏ 

ReLU الطبقة المخفية 32:2 خلية عصبية مع دالة التتشیط‎ m 

Sigmoid طيقة المخرجات: 1 خلية عصبية مع دالة التنشيط‎ n= 
مما يعني‎ (Sequential) الآن علينا وصف هذه الھیکلیةنی کیراس. سنستخدم النموذج المتسلسل‎ 
دعنا ندخل الكود المطلوب من‎ LE نحتاج فقط إلى وصف الطبقات العلیا بالترتیب.‎ tl 
:Keras 


from keras.models import Sequential 
from keras.layers import Dense 


بعد US‏ نحدد أن نموذجنا المتسلسل على النحو التالى: 
model = Sequential([‏ 
Dense(32, activation='relu', input shape-(10,)),‏ 
Dense(32, activation-'relu'),‏ 
Dense(1, activation='sigmoid'),‏ 
D‏ 
Gus‏ مثل الشكل السابق الذي رسمنا هیکله. يحدد مقتطف الکود آعلاه نفس الهيكلية. يمكن 
تفسير مقتطف الكود أعلاه على النحو التالي: 
model = Sequential ([...])‏ 


يوضح هذا الرمز آننا نقوم بتخزين نموذجنافي متغير النموذج ووصفه بالتسلسل (طبقة تلو طبقة) 
بين الأقواس. 


Dense(32, activation-'relu', input shape-(10,)) 


الفصل الثالت: الشبكات العصبية امامية التغذية 


فى الطبقة الأولی. لدينا طبقة متصلة بالكامل بها 32 US‏ عصبية. ودالة التنشیط ReLU‏ وشکل 
الإدخال 10ء oY‏ لدينا 10 خصائص إدخال. لاحظ أن كلمة Dense"‏ " تشير إلى طبقة متصلة 
بالكامل. 
Dense(32, activation='relu'),‏ 
الطبقة الثانية لدينا هى Cal‏ طبقة متصلة بالكامل بها 32 LE‏ عصبية Ulay‏ التنشيط ReLU‏ 
لاحظ أنه لا يتعين علينا وصف شكل الإدخالء حيث يمكن ل Keras‏ استنتاج ذلك من اخراج 
الطبقة الأولى. 
Dense(1, activation='sigmoid'),‏ 
الطبقة الثالثة. أو طبقة الاخراج» هی طبقة متصلة بالكامل بها خلية عصبية واحدة ودالة التنشیط 
14 كما ترون. تمکنا من برمجة هيكل النموذج الخاصة بنا. 
الآن بعد أن حددنا المعماریق نحتاج إلى إيجاد أفضل المعاملات لها. قبل بدء البرنامج 
* الخوارزمية التى تريد استخدامها لأداء التحسين. 
= دالة الخطأ المستخدمة. 
* المقاييس الأخرى التي تريد تتبعھا بصرف النظر عن دالة الخطأ. 
لتكوين النموذج بهذه الاعدادات. نحتاج إلى استدعاء وظيفة model.compile‏ ء على النحو 
التالى: 
model.compile(optimizer='sgd',‏ 
loss='binary_crossentropy',‏ 
metrics=['accuracy'])‏ 
ضع الإعدادات التالية بین قوسين بعد :model. compile‏ 
optimizer='sgd',‏ 
يشير '580 إلى الانحدار التصادفى العشوائى (يشير هنا إلى الانحدار التصادفى الصغير). 
loss='binary_crossentropy',‏ 
بالنسبة للمخرجات التي BE‏ قيم 1 أو 0. يتم استخدام دالة الخطاً 
.'binary_crossentropy'‏ 
metrics=['accuracy' ]‏ 
أخيرًاء نريد تتبع الدقة Oe‏ إلى جنب مع دالة الخطأ. OYI‏ عندما نقوم بتشغيل هذه الخلیة نحن 
جاهزون للتدريب! 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


hist = model.fit(X_train, Y_train, 
batch_size=32, epochs=100, 
validation_data=(X_val, Y_val)) 


للقيام بذلك. نستخدم دالة 86" التي تلائم المعاملاتفي البيانات. نحتاج إلى تحديد البيانات 
التي نتدرب عليها والتي حددتها .Y trains X train‏ بعد ذلك» نحدد حجم المجموعة 
الفرعية (بواسطة المعامل harhat‏ وطول الفترة الزمنية التي نريد تدریبھا -Cepochs)‏ 
أخيراء نحدد بیانات التحقق الخاصة بنا حتی یتمکن النموذج من إخبارنا LAS‏ التعامل مع 
بیانات التحقق‌في أي مکان. تقوم هذه الدالة بانشاء سجل نقوم بتخزينهفي متغیر hist‏ سنستخدم 
هذا المتغیر عندما نبدأفي الرسم والتوضیح. الآن. قم بتشغیل الخلية وشاهد البرنامج التدريبي 
الخاص بها! يجب أن تبدو مخرجاتك كما يلى: 


Epoch 0 
32/32 
val_loss: 0.6974 - val_accuracy: 0.3699 
Epoch 2/100 
32/32 
val_loss: 0.6943 - val_accuracy: 0.4110 
Epoch 3/100 
32/32 
val_loss: 0.6915 - val_accuracy: 0.4703 
Epoch 4/100 
32/32 


- Os 5ms/step - loss: 0.6990 - accuracy: 0.3542 - 


- Os 2ms/step - loss: 0.6955 - accuracy: 0.4022 - 


Os 2ms/step = loss: 0.6926 = accuracy: 0.4706 =‏ ب 


- Os 2ms/step - loss: 0.6899 - accuracy: 0.5499 - 


- 0s 2ms/step - loss: 0.6874 - accuracy: 0.6468 - 


val loss: 0.6864 - val accuracy: 0.6758 
Epoch 6/100 


32/32 
val loss: 0.6842 - val accuracy: 0.7123 
Epoch 7/100 5 
32/32 
val_loss: 0.6821 - val_accuracy: 0.7489 
Epoch 8/100 
32/32 
val_loss: 0.6801 - val_accuracy: 0.7717 
Epoch 9/100 
32/32 
val_loss: 0.6781 - val_accuracy: 0.8037 
Epoch 10/100 
32/32 
val_loss: 0.6761 - val_accuracy: 0.8128 
Epoch 11/100 


- Os 2ms/step - loss: 0.6849 - accuracy: 0.7133 - 


- Os 2ms/step - loss: 0.6828 - accuracy: 0.7524 - 


- Os 2ms/step - loss: 0.6807 - accuracy: 0.7564 - 


- 0s 2ms/step - loss: 0.6787 - accuracy: 0.7779 - 


- 0s 2ms/step - loss: 0.6767 - accuracy: 0.8072 - 


32/32 [= =] - Os 2ms/step - loss: 0.6746 - accuracy: 0.8317 - 
val loss: 0.6740 - val accuracy: 0.8219 

Epoch 12/100 

32/32 [= - 0s 2ms/step - loss: 0.6725 - accuracy: 0.8239 - 


val loss: 0.6717 - val accuracy: 0.8265 


Epoch 95/100 


32/32 =] - 0s 2ms/step - loss: 0.2931 - accuracy: 0.8865 - 
val loss: 0.3051 - val accuracy: 0.9041 

Epoch 96/100 

32/32 - 0s 2ms/step - loss: 0.2920 - accuracy: 0.8816 - 


val loss: 0.3043 - val accuracy: 0.8995 
Epoch 97/100 
32/32 == 
val_loss: 0.3044 - val_accuracy: 0.9041 
Epoch 98/100 5 
32/32 == 
val loss: 0.3030 - val accuracy: 0.8995 
Epoch 99/100 1 
32/32 == = 
val_loss: 0.3025 - val_accuracy: 0.8995 
Epoch 100/100 5 
32/32 [= 
val_loss 


- Os 2ms/step - loss: 0.2911 - accuracy: 0.8855 - 


- 0s 2ms/step - loss: 0.2901 - accuracy: 0.8865 - 


- 0s 2ms/step - loss: 0.2896 - accuracy: 0.8806 - 


- 0s 2ms/step - loss: 0.2884 - accuracy: 0.8816 - 
0.3017 - val accuracy 
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الآن ترى أن النموذج يتم تدريبه! من خلال النظر إلى الأرقام, يجب أن تكون قادرًا على رؤية 
انخفاض الخطأ وزيادة الدقة بمرور الوقت.في هذه المرحلة. يمكنك اختبار الشبكة العصبية 
بمعاملات فائقة مختلفة. قم بتشغيل الخلايا مرة أخرى لترى كيف يتغير البرنامج التدريبي 
الخاص بك عندما تقوم بتغيير المعاملات الفائقة. بمجرد أن تشعر بالرضا عن نموذجك النهائيء 
يمكنك تقييمهفي مجموعة الاختبار. للعثور على Bo‏ مجموعة الاختبار الخاصة بناء نقوم بتشغيل 
مقتطف الشفرة البرمجية التالية: 


model.evaluate(X_test, Y_test)[1] 


سبب وجود الفهرس 1 بعد دالة التقييم هو أن الدالة ترجع الخطأ كعنصر أول والدقة كعنصر ثان. 
نظرًا e‏ دقيق بما يكفي لعرض المخرجات. يمكنك الوصول إليه بهذه الطريقة. نظرًا للتوزيع 
العشوائي لمجموعة البيانات وكذلك تهيئة الأوزان. ستكون الأرقام والرسوم البيانية مختلفة قليلاً 
في كل مرة نقوم فيها بتشغیل notebook‏ الخاص بنا. ومع ذلك إذا كنت قد اتبعت الهيكل 
الموضح أعلاہ فیجب أن تحصل على دقة اختبار تتراوح من 80 إلى 95/! مثل الإخراج أدناه: 

7/7 [==============================) - 05 2ms/step - loss: 0.3281 - accuracy: 0.8584 


1 .0 
تھانینا! لقد استطعت ان تصمم وتدرب شبكتك العصبية الأولى. 


تحدثناني الأقسام السابقة عن overfitting‏ وبعض تقنيات التنظيم. الآن كيف نعرف أن 
نموذجنا بالفعل foverfitting‏ ما يمكننا القيام به هو رسم الخطأ التدريبي وخطأ الاعتماد على 
عدد الدورات التي تم أخذها. لتوضيح ذلك. نستخدم حزمة آ2126010[1. کالعادق علینا إدخال 
الكود الذي نريد استخدامه: 
import matplotlib.pyplot as plt‏ 
ثم نريد توضيح خطأ التدريب '1055' وخطأ الاعتماد' ۰۰۷۵11055 للقيام WL‏ قم بتشغيل هذا 
المقطع من الكود: 
plt.plot(hist.history['loss'])‏ 
plt.plot(hist.history['val. loss'])‏ 
plt.title('Model loss')‏ 
plt.ylabel('Loss')‏ 
plt.xlabel('Epoch')‏ 


plt.legend(['Train', 'Val'], loc-'upper right') 
plt.show() 


سنشرح کل سطر من مقتطف الشفرة أعلاه. يقول أول سطرين Ul‏ نرید رسم خطأ التدريب 
'1055' وخطاً .'val_loss'slexe'Y!‏ يحدد السطر الثالث olge‏ هذا المخطط: Model loss‏ 
يخبرنا الخطان الرابع والخامس ما يجب تسمية المحورين y‏ و × على التوالي. يحتوي السطر 
السادس على وصف للمخطط الخاص بناء وسیکون موقع الوصف في أعلى اليمين» ويخبر السطر 
السابع jupyter notebook‏ لعرض المخطط. يجب أن تبدو مخرجاتك مثل هذا: 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


Model loss 
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يمكننا أن نفعل الشيء نفسه لرسم دقة التدريب ودقة التحقق من الصحة باستخدام الكود التالي: 


plt.plot(hist.history['accuracy' ]) 
plt.plot(hist.history['val accuracy']) 
plt.title('Model accuracy') 
plt.ylabel('Accuracy') 

plt.xlabel('Epoch') 

plt.legend(['Train', 'Val'], loc-'lower right') 


plt.show() 
يجب أن تحصل على رسم بياني يشبه هذا قليلآني الإخراج:‎ 
Model accuracy 
0.9 4 
0.8 4 
5, 0.74 
لا‎ 
S 
2 
B 0.64 
< 
0.5 4 
0.4 — Train 
س‎ Vel 
0 20 40 60 80 100 


Epoch 
التحسینات التي أدخلت على نموذجنافي مجموعة التدريب تتوافق إلى حد ما مع تحسين‎ oY نظرًا‎ 
مجموعة التحقق من الصحة. لا يبدو أن 8 يمثل مشكلة كبيرةفي نموذجنا (ومع ذلك‎ 
یمکن تحسینه عن طريق تحسین المعاملات الفائقة).‎ 
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التدريب. نسمى هذا النموذج -model_2‏ 


model 2 = Sequential([ 


1) 


Dense(1000, activation-'relu', input_shape=(10,)), 
Dense(1000, activation='relu'), 
Dense(1000, activation-'relu'), 
Dense(1000, activation-'relu'), 
Dense(1, activation-'sigmoid'), 


model 2.compile(optimizer- ' 30318 ' , 


loss='binary_crossentropy', 
metrics=['accuracy']) 


hist_2 = model_2.fit(X_train, Y_train, 


batch size-32, epochs-100, 
validation data-(X val, Y val)) 


هناء نبنى نموذجا أكبر بكثير ونستخدم محسّن Adam‏ . يعد Adam‏ أحد أكثر أدوات تحسين 
الأداء شيوعًا المستخدمةنی معماريات الشبكات العصبية. لانه سريع ويتسببفي خطأ أقل. إذا قمنا 
بتشغيل هذا الكود ورسمنا مخططات الخطأ ل 2 hist‏ باستخدام الكود التالي (لاحظ أن الكود 


هو نفسه باستثناء أننا نستخدم 2 hist‏ بدلاً من (hist‏ 


.plot(hist 2.history['loss']) 

.plot(hist 2.history['val loss']) 
.title('Model loss') 

.ylabel('Loss') 

.Xlabel('Epoch') 

.legend(['Train', 'Val'], loc-'upper right') 
. show() 


نحصل على رسم بياني على النحو التالي: 


Model loss 


Loss 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


هذه علامة واضحة على overfitting‏ تتراجع الاخطاء التدريبية» لکن اخطاء الاعتماد أعلى 


plt. 
plt. 
plt. 
plt. 
plt. 
plt. 
plt. 


بكثير من الاخطاء التدريبية وتتزايد. إذا رسمنا الدقة باستخدام الكود التالي: 


plot(hist 2.history['accuracy' ]) 

plot(hist 2.history['val accuracy' ]) 
title('Model accuracy') 

ylabel('Accuracy') 

xlabel('Epoch') 

legend(['Train', 'Val'], loc-'lower right') 
show() 


يمكننا أيضًا أن نری فرقًا أوضح بین الدقة التدریبیة' "accuracy‏ ودقة :'val_accuracy'slexe‏ 


Mode! accuracy 


Accuracy 
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الآنء دعنا نجرب بعض استراتيجياتنا لتقليل 076566128 .في الأقسام السابقة قدمنا عدة طرق 
لمنع -overfitting‏ ومع ذلكءنی هذا القسم نستخدم فقط الحذف العشواتی Sai dropout‏ 


دعنا ندخل الكود الذي نحتاجه لإضافة الحذف التصادفي: 


from keras.layers import Dropout 


ثم نحدد نموذجنا الثالث على النحو التالي: 


model 3 = Sequential ([ 


D 


Dense(1000, activation-'relu', input, shape-(10,)), 
Dropout(0.5), 

Dense(1000, activation='relu'), 

Dropout(0.5), 

Dense(1000, activation-'relu'), 

Dropout(0.5), 

Dense(1000, activation-'relu'), 

Dropout(0.5), 

Dense(1, activation='sigmoid'), 


هل يمكنك معرفة الفرق بين النموذج 3 والنموذج 2 هناك اختلاف رئيسي واحد: 


لإضافة «Dropout‏ أضفنا طبقة جديدة مثل هذه: 


الفصل الثالت: الشبكات العصبية امامية التغذية 


Dropout(0.5), 
Le» هذا يعني أن الخلايا العصبيةني الطبقة السابقة لديها فرصة 0.5 للإزالة أثناء التدريب.‎ 
2 نجمعها ونشغلها بنفس المعاملات مثل نموذج‎ 


model. 3.compile(optimizer-'adam', 
loss-'binary. crossentropy', 
metrics-['accuracy' ]) 


hist 3 - model 3.fit(X train, Y train, 
batch size-32, epochs-100, 
validation data-(X val, Y val)) 


الآنء دعنا نرسم مخططات الخطأ والدقة. 


plt.plot(hist_3.history['loss']) 

plt.plot(hist 3.history['val loss']) 
plt.title('Model loss') 

plt.ylabel('Loss') 

plt.xlabel('Epoch') 

plt.legend(['Train', 'Val'], loc-'upper right') 
plt.show() 


سوف نتلقى المخرجات على النحو التالي: 


Model loss 


0.0 T ۳ T T T T 
0 20 40 60 80 100 


Epoch 


كما يمكن رؤيته. فإن خطأ التحقق من صحة النموذج 2 أكثر توافقاً مع خطا التدریب (ومع 
ذلك. لا يزال هذا النموذج غير مرغوب فيه والنموذج أكثر من اللازم). لنرسم الدقة بنفس الكود: 


plt.plot(hist 3.history['accuracy' ]) 
plt.plot(hist 3.history['val accuracy']) 
plt.title('Model accuracy') 
plt.ylabel('Accuracy') 

plt.xlabel('Epoch') 

plt.legend(['Train', 'Val'], loc-'lower right') 
plt.show() 


وسوف تظهر المخرجات على النحو التالي: 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


Model accuracy 
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مقارنةً بالنموذج 2 ۰ قمنا بتقليل الضبط الزائد بشكل ملحوظ! هذه هي الطریقة التي نطبق بها 

تقنيات التنظيم لتقليل الضبط الزائد في مجموعة التدريب. كتمرين ۰ يمكنك تغيير المعاملات 

العليا ومقارنة النتائج. 

خلاصة الفصا 

* الشبكات العصبية الاصطناعية هي نماذج حسابية تحاكي LAS‏ عمل الخلايا العصبية في 
الدماغ البشري. 

١‏ تحتوي كل شبكة عصبية اصطناعية على طبقة إدخال وطبقة إخراج وطبقة مخفية واحدة أو 

= یطلق على أبسط نوع من نمذجة الخلايا العصبية اسم Perceptron‏ ۰ والذي يمكن أن 
يحتوي علی عدد کبیر من المدخلات بمخرج واحد. 

٭ يتمثل التقييد الرئيسي للشبكات العصبية الادراكية Perceptron‏ في عدم القدرة على 
تصنيف البيانات التى لا يمكن فصلها خطيًا. 

٭ الهدف من عملية تعلم الشبكة العصبية هو العثور على مجموعة من قيم الاوزان التي تجعل 
ناتج الشبكة العصبية مطابقا قدر الإمكان مع القيم المستهدفة الفعلية. 

٭ ‏ تقرردالة التنشيط ما إذاكان يجب تنشيط الخلية العصبية ام لا. 
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اختبار 


0. ما هو تأثیر اختیار معدل التعلم الصغیر جدا أو الكبير جد على عملية التعلم؟ 

1. صف ظاهرة تلاشي الانحدار؟ 

2. ما هي الميزات المرغوبة لدالة التنشيط؟ 

3. ما هي دالة التنشيط المستخدمة في طبقة الإخراج لمشاكل التصنيف الثنائي ومتعدد الفتات؟ 
4. ما الدور الذي يلعبه المحسن optimizer‏ في عملية التعلم للشبكات العصبية؟ 


ثمرين 


قم بإنشاء شبكة عصبية ذات طبقتين مخفيتين لتصنيف مجموعة بیانات Iris‏ قم بتوضيح مخططات 
الدقة.والخطأ لمجموعة التدريب والتحقق من الصحة أثناء التدريب. 


نصائح لتوسيع نطاق البيانات نصائح لإدخال البيانات 
from sklearn.datasets import load_iris scaler = StandardScaler()‏ 
iris = load iris(O) X_scaled = scaler. fit_transform(X)‏ 


X = iris['data'] 
y = iris['target'] 


کے 
um‏ 


الفصل الرابع: الشبكة العصبية الالتفافية 


المقدمة 

في هذا الفصل. نقدم مفاهيم الشبكات العصبية الالتفافية Convolutional neural)‏ 
(network‏ أو اختصارا CNN‏ .تتضمن هذه المفاهيم المکونات الرئيسية للشبكة التي تشكل 
بُیة الشبكة العصبية الالتفافية. تعمل الشبكات العصبية الالتفافية بشکل جيد للغاية بالنسبة 
للبيانات غير المهيكلة مثل الصور. بعد التعرف الكامل على بنية الشبكات العصبية الالتفافیةءنی 
نهاية الفصل سنقوم بتنفيذ مثال عملي باستخدام الشبكات العصبية الالتفافيةفي „keras‏ 


الشبكات العصبية الالتفافية (CNN)‏ 

في الشبكات العصبية أمامية التغذية المتصلة بالکامل. يتم توصيل جميع العقد الخاصة بطبقة 
واحدة بجميع عقد الطبقة التالية. کل اتصال له وزن رس »والذي يجب أن doled‏ خوارزمية 
التعلم. لنفترض أن مدخلاتنا عبارة عن صورة 64 بكسل x‏ 64 بكسل على مقياس رمادي. نظرّا 
لأنه يمكن تمثیل کل بکسل رمادي بقيمة 1ء نقول إن حجم القناة هو 1. يمكن تمثيل هذه الصورة 
ب 4096 = 1 x‏ 64 × 64 ((قناة x‏ عمود (dex‏ ومن ثم فان طبقة الإدخال للشبكة العصبية 
أمامية التغذية التي تعالج مثل هذه الصورة بها 4096 عقدة. افترض أن الطبقة التالیة بها 500 
عقدة. نظرًا oY‏ جميع العقدني الطبقات التالية متصلة تمامّاء فسوف نقوم بحساب اوزان 
2048000 = 500 × 4096 بين الإدخال والطبقة المخفية الأولى. ومع ذلك بالنسبة 
للمشكلات المعقدة. نحتاج ble‏ إلى عدة طبقات مخفیةنی الشبكة العصبية أمامية التغذية 
الخاصة بناء لأن الشبكة العصبیة أمامية التغذية البسيطة قد لا تكون قادرة على تعلم نموذج تعيين 
المدخلات إلى المخرجاتفي بيانات التدريب. يؤدي وجود طبقات مخفية متعددة إلى تفاقم 
مشكلة وجود عدد كبير جد من الأوزانفي شبكة التغذية الخاصة بنا ویجعل عملية التعلم أكثر 
صعوبة عن طريق زيادة حجم مساحة البحث. كما أنه يتيح المزيد من التدريب والوقت والموارد. 
بالإضافة إلى ذلك. فإن عددًا كبيرًا من المعاملات يزيد من ميل الشبكة إلى الضبط الزائد. لذلك. 
من أجل معالجة هذه المشکلات. تم تقديم الشبكات العصبية الالتفافية (CNN)‏ كتطوير شائع 
جدًا للشبکات العصبية القياسية. الشبكات العصبية الالتفافية هى فثة من الشبكات العصبية أمامية 
التغذية التي تستخدم طبقات الالتفاف لتحليل المدخلات باستخدام طبولوجيا الشبکة. مثل 
الصور ومقاطع الفيديو. يعتمد اسم هذه الشبكات على دالة رياضية تسمى الالتفاف. والتي 
يستخدمونهاني بنيتهم. باختصار الشبكات الالتفافية هي شبكات عصبية تستخدم الالتفاف Say‏ 
من ضرب المصفوفةفي طبقة واحدة على الأقل من طبقاتها. 

ما يميز شبكة العصبية الالتفافية هو الطريقة التي يتم بها تنظيم الاتصالات بين الخلايا العصبية 
وبنية الطبقة المخفية الفريدة المستوحاة من آلية معالجة البيانات المرئية الخاصة بنا داخل القشرة 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


البصرية لدینا. على عکس الشبكات العصبية أمامية التغذیة الطبقاتفي CNN‏ تنتظم بثلاثة 
أبعاد: العرض والارتفاع والعمق. 

واحدة من أهم ميزات الشبكة الالتفافیة التي يجب أن تضعهاني اعتبارك بغض النظر عن عدد 
الطبقات الموجودةفي بُنیتھاء هي أن البنية الكاملة لشبكة CNN‏ تتكون من جزأين رئيسيين.: 


" استخراج Extraction) >l;‏ 5 في هذه الطبقة ٠‏ تقوم الشبكة بتنفيذ 
سلسلة من عوامل الالتفاف (convolution)‏ والتجميع (pooling)‏ . إذا أردنا تحديد 
صورة قطة في الصورة » فهذا هو الجزء الذي يتم فيه التعرف على ميزات معينة مثل 
الأذنين والكفوف ولون فرو القطط. باختصار ۰ تتمثل مهمة هذه الطبقة في التعرف 
على الميزات المهمة في بكسلات الصورة. تتعلم الطبقات الأقرب إلى الإدخال التعرف 
على الخصائص البسيطة مثل الحواف وتدرجات الالوان c‏ بينما تدمج الطبقات الأعمق 
خصائص بسيطة مع خصائص أكثر تعقیدا. 

* التصنیف: هنا تعمل الطبقة المتصلة بالكامل كمصنف بعد خطوة استخراج الميزة. 
تحدد هذه الطبقة الميزة الأكثر صلة بفئة معينة . لذا فهي ت تتوقع فئة الصورة بناء على 
الخصائص المستخرجة في الخطوات السابقة ة. يمكن رؤية معماريتها العامة في الشكل 


4-1 


التجمیع المدخلات 


حصان 
حمار 
قطة 
الالتفاف الالتفاف الالتفاف 
خريطة 
ai >‏ — ۳ 
| | 
التوزيع T‏ استخراج المبزات 


شكل 1-4. لمحة عامة عن هيكل الشبكة العصبية الالتفافية 
تتميز الشبكات العصبية الالتفافية بثلاث خصائص مميزة مقارنة بالشبکات العصبية الأخرى: 
1. المجالات المحلية الاستقبالية :(local receptive fields)‏ كل خلية عصبية في CNN‏ 
مسؤولة عن منطقة محددة من بيانات الإدخال . وهذا يسمح للخلايا العصبية بتعلم أنماط 
مثل الخطوط والحواف والتفاصيل الصغيرة التي تشكل الصورة. تسمى هذه المنطقة 
المحددة من الفضاء التي تتعرض لها خلية عصبية أو وحدة في بيانات الإدخال المجال 
المحلي الاستقبالي. يُعرّف المجال الاستقبالي بحجم فلتر أحادي الطبقة في شبكة عصبية 
التفافية. 
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2 مشاركة المعاملات (parameters sharing)‏ و الارتباط المحلى Local)‏ 
(connectivity‏ : تحتو يكل طبقة التفافية على عدة فلاتر. liag‏ معامل فائق محدد Brut‏ 
يحتوي کل من هذه الفلاتر على عرض وارتفاع معدل يتوافق مع مجال الاستقبال المحلي 
للخلايا العصبية. تنشی الفلاتر التي تعمل على بيانات الإدخال خريطة المعالم عند إخراج 
الطبقة الالتفافية. مشاركة المعالم هي مشاركة الأوزان بواسطة جميع الخلایا العصبیة في 
خريطة المعالم. الاتصال المحلي » من ناحية أخرى . هو مفهوم أن كل خلية عصبية مرتبطة 
فقط بمجموعة فرعية من الخلايا العصبیة . على عكس الشبكة العصبية الأمامية التي ترتبط 
فیها جمیع الخلایا العصبية بشکل کامل. تساعد هذه المیزات في تقلیل و ات 
في جميع آنحاء النظام وجعل الحوسبة آکثر كفاءة. 

3. جمع العينات (sub-sampling)‏ او التجميع OU :(pooling)‏ ما يأتي أخذ العینات 
الفرعية أو الدمج فورًا بعد طبقة الالتفاف على شبكة CNN‏ يتمثل دورها في خفض 
ناتج الطبقة الالتفافية على طول الأبعاد المكانية للارتفاع والعرض. تتمثل الوظيفة الرئيسية 
للتجميع في تقليل عدد المعاملات التي يجب أن تتعلمها الشبكة. تقلل هذه الميزة Cai‏ 
من تأثير overfitting‏ « مما يؤدي إلى زيادة أداء الشبكة بشكل عام ودقتها. 

لعبت الشبكات الالتفافية دوزا مهما فى تاريخ التعلم العميق. Lal‏ مثال مهم وناجح 


لفهمنا لدراسه الدماغ فى تطبيقات التعلم الآلى. كانت الشبكات العصبية الالتفافية من 
بين الشبكات العصبية الأولى التى تم استخدامها فى حل وتنفيذ تطبيقات الأعمال 


المهمة. وحتى يومنا هذا فهى فى طليعة تطبيقات الأعمال فى التعلم العميق. 


عامل الالتفاف 


تنتمي الشبكات الالتفافية إلى مجموعة من الشبكات العصبية التي تأخذ الصورة کمدخلات 
وتعرضها لمجموعة من الأوزان والتحیزات. وتستخرج الميزات» وتحصل على النتائج. تميل إلى 
تقليل حجم الصورة المدخلة باستخدام الكيرنل (الفلتر) مما يجعل من السهل استخراج 
الميزات مقارنة بالشبكة العصبية للتغذية. أساس الشبكة الالتفافية هو عامل الالتفاف. 

الالتفاف ثنائي الأبعاد هوني الأساس عملية بسيطة نسبيًا. تبدأ بکیرنل» وهي عبارة عن مصفوفة 
ضغيرة من الأوزان. تنزلق الكيرئل علی بیانات الإدخال ثناتية lM‏ وتضرب dots‏ جزء 
الإدخال الموجود عليه حالیّا. ثم تلخص النتائجفي بکسل الاخراج (الشکل 2-4). تکرر الکیرنل 
هذه العملية لكل موقع تنزلق عليه (تلتف Cade‏ وتحول مصفوفة ثنائية الابعاد من الخصاتص 
إلى مصفوفة خصائص ثائیة الأبعاد آخری. خصائص الاخراج هي‌ني الأساس مجموع الاوزان 
لخصائص ال دخال التي تکون تقریبّافی نفس الموقع مثل بکسل الإخراجفي طبقة الادخال. 
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شكل 2-4. عامل الالتفاف 


في المثال أعلاه. خصائص الإدخال هي ۰55225 وخصائص الإخراج 3×3-9. إذا كانت 
هذه طبقة قياسية متصلة بالکامل» فسنحصل على مصفوفة وزن برقم معامل ۰29*9-225 حيث 
تکون کل خاصية مخرجات هي الوزن الاجمالي لكل خاصية إدخال. تسمح لنا الالتفافات بإجراء 
هذا التحويل باستخدام 9 معاملات فقط. 

تأثير الالتفاف هو التأكيد على حدود الأشكال المختلفة. يمكن تعديل الكيرنل المتغيرة لتلبية 
الاحتیاجات الخاصة. ومع ذلك. بدلاً من محاولة القيام بذلك Coty‏ تقوم الشبكة الالتفافية 
العميقة بتفويض هذه المهام لعملية التعلم. 

يؤدي التطبيق المتوازي للكيرنلات (الفلاتر) المختلفة إلى تداخلات معقدة يمكن أن تبسط 
استخراج الميزات المهمة Go‏ للتصنيف. يتمثل الاختلاف الرئيسي بين الطبقة المتصلة GLS‏ 
والطبقة الالتفافيةفي قدرة الطبقة الثانیة على العمل مع هندسة موجودة تقوم بتشفير جميع العناصر 
اللازمة لتمییز کائن عن آخر. لا يمكن تعميم هذه العناصر على الفور» ولكنها تتطلب eje‏ من 
المعالجة لأداء الغموض. على سبيل المثال. العینان والأنف متطابقتان تقريبًا. كيف يمكن تقسيم 
الصورة بشكل صحيح؟ تأتي الإجابة بتحليل مزدوج: هناك اختلافات دقيقة يمكن اكتشافها 
باستخدام الفلاتر الدقيقة. والأهم من ذلك. أن الهندسة الكلية للکائنات تستند إلى علاقات داخلية 
ثابتة تقریبًا. على سبیل المثال» يجب أن تشكل العينان والأنف es‏ متساوي الأضلاع, لأن تناسق 
الوجه يعني نفس المسافة بين كل عين والأنف. يمكن القيام بذلك مسبقاء مثل العديد من تقنیات 
معالجة الصور. أو يمكن تركه لعملية التعلم بفضل قوة التعلم العميق. نظرًا لن دالة الخطأ وفتات 
المخرجات تتحكم GS‏ الاختلافات. يمكن للشبكة الالتفافية العميقة معرفة ما هو مهم 
لتحقيق هدف محدد مع التخلص من جميع التفاصيل غير المجدية. 
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طبقة الالتفاف 

طبقة الالتفاف هي أهم لبنةنی بناء شبكة CONN‏ تحتوي هذه الطبقة على مجموعة من الفلاتر 
Casi dies‏ پاسم الکیرنل (kernel)‏ أو كاشفات المعالم «(feature detectors)‏ حيث يتم 
تطبيق كل فلتر على جميع مناطق بيانات الإدخال. بمعنى آخر تتمثل المهمة الرئيسية لطبقة 
الالتفافنی تحديد الخصائص الموجودةفي المناطق المحلية لصورة الادخال. والتی تكون مشتركة 
لمجموعة البیانات بأكملها. ينتج عن التعرف على الميزة هذا إنتاج خريطة ان انش او المعالم 
عن طريق تطبيق عوامل التصفية. تطبق طبقة الالتفاف فلترا Coca‏ على صورة الادخال. ينتج عن 
هذا تصنيف أفضل لوحدات البكسل المجاورة الأكثر bU E‏ نفس الصورة. بمعنی آخرء يمكن 
أن ترتبط وحدات البکسل الخاصة بالصور المدخلة ببعضها البعض. على سبيل المثال.في صور 
الوجه. يكون الأنف دائمًا بين العينين والفم. عندما نطبق المرشح على مجموعة فرعية من 
الصورة: فإننا نستخرج بعض الخصائص المحلية. يشار إلى هذه الطبقة أيضًا باسم طبقة استخراج 
الميزات او المعالم. OY‏ يتم استخراج خصائص الصورةني هذه الطبقة. 

تحتوي كل طبقة التفاف على مجموعة محددة من المعاملات الفائقةء كل منها يحدد عدد 
الاتصالات وحجم الإخراج لخرائط الميزات: 

e‏ حجم الكيرنل: يصف الحجم الأساسي K‏ (يسمى Clot‏ حجم الفلتر) الحقل 
الاستقبالي الذي ينطبق على جميع مواقع الإدخال. تسمح زيادة هذا المعامل لطبقة 
الالتفاف باستقبال المزيد من المعلومات المكانية ء مع زيادة عدد آوزان الشبكة في 
نفس الوقت. 

e‏ عدد الكيرنل: يتوافق عدد الكيرنلات بشكل مباشر مع عدد المعاملات القابلة للتعلم 
وعمق D‏ لحجم إخراج طبقة الالتفاف. مثلما ينتج كل کیرنل خريطة ميزات مخرجات 
منفصلة « فإن الکیرنلات D‏ تنتج خريطة ميزات مخرجات بعمق D‏ 

e‏ الخطوة: يمكن اعتبار الالتفاف تراکمیّا عن طريق "انزلاق" الکیرنل على حجم 
الإدخال. ومع ذلك . لا يجب أن يحدث "الانزلاق" على مسافة بکسل واحد في كل 
مرة » وهو ما تصفه الخطوة (Stride)‏ تحدد الخطوة S‏ عدد وحدات البكسل التي 
تنقلها الكيرنل بین کل حساب لخاصية الاخراج. تنتج الخطوات الا کبر حجمًا خرائط 
ميزات مخرجات أصغر لأنه يتم إجراء عدد أقل من العمليات الحسابية. يظهر هذا 


المفهوم في الشكل أدناه: 
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الکیرنل 23 , الخطوة 5-3 الکیرنل 23 , الخطوة 5-2 الكيرنل ۷23 , الخطوة 5-1 


خريطة المعالم : Y‏ خريطة المعالم : > 


e‏ الطبقات الصفریة: نظرا لتشغیل عملية الالتفاف ۰ تستخدم الطبقات الصفرية 
(Padding)‏ او الحشو للتحكمني الأبعاد بعد تطبیق مرشحات ST‏ من 1 * 1 ولمنع 
فقدان المعلومات في الحواشي. بمعنی آخر . UU‏ ما يتم استخدام الطبقة الصفرية 
للحفاظ على الأبعاد المكانية لطبقات الادخال والاخراج كما هي. عن طریق إضافة 
مدخلات صفرية حول المحیط ‏ يمكن تجنب انکماش الأبعاد المکانية عند الالتفاف. 
تعد قيمة الأصفار المضافة على كل جانب لكل بُعد مكاني معامل GE‏ إضافي P‏ 
یظهر مثال على التقسيم الصفري في الشکل أدناه: 

الکرنل K-3‏ , الخطوة 5-3 الحشو P=1‏ 


1 


e‏ التمدد :(Dilatiom)‏ التمدد او الفتحة d‏ التي تم إدخالها مؤخرًا هي معامل فائق آخری 
یتیح لطبقة الالتفاف أن یکون لها مجال استقبال آکثر کفاءة من الادخال « مع الحفاظ 
على حجم الکیرنل EG‏ يتم الحصول على ذلك عن طریق ادخال المسافة d‏ بين کل 
خلية من الكيرنل. يستخدم الالتفاف القياسي ببساطة التمدد 0. ومن ثم فإن لها کیرنل 
مستمرة. من خلال زيادة المساحة » يمكن لطبقة الالتفاف أن تشغل مساحة أكبر من 
الإدخال مع الحفاظ على ثبات استهلاك الذاكرة. يظهر مفهوم الالتفافات التمددیة ‏ 
التى تسمى UPS‏ الالتفافات الأذينية «(atrous convolutions)‏ فی الشکل 4-4-3 
مع تمددات مختلفة. ۱ 

وفقا لحجم الادخال W‏ ۰ حجم الکیرنل KI‏ الخطوة 5 i‏ التمدد d‏ و طبقة الصفرية يتم 
حساب حجم الاخراج الناتج على النحو التالي: 
We = a T‏ 
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الکرنل : 3x3‏ , التمدد : 1 الکیرنل : 3×3 , التمدد : 0 


الکرنل : 3x3‏ , التمدد : 3 الکرنل : 3x3‏ , التمدد : 2 


شكل 3-4. التمدد على مدخلات ثنائية الأبعاد بأحجام مختلفة. 

استخدام الالتفاف له ثلاث مزايا مهمة. dole Kf‏ ما يكون للشبكات العصبية الالتفافية 
تفاعلات متفرقة (Sparse interactions)‏ تستخدم الشبكات العصبية أمامية التغذية مصفوفة 
من المعاملات التي تصف العلاقة بين وحدات الإدخال والإخراج. هذا يعني أنكل وحدة إخراج 
متصلة بكل وحدة إدخال. ومع ذلك فإن الشبكات العصبية الالتفافية لها تفاعلات متفرقة يتم 
تحقيقه عن طريق تقليص الكيرنل من المدخلات. على سبيل المثال. يمكن أن تحتوي الصورة 
على ملايين أو آلاف وحدات البكسلء ولكن أثناء معالجتها باستخدام الکیرنل» یمکننا تحديد 
المعلومات المفيدة التي تتكون من عشرات أو مئات من وحدات البكسل. هذا يعني أنه يتعين 
علينا تخزين عدد آقل من المعاملات التي لا تقلل من الحاجة إلى الذاكرة فحسب. بل تعمل 
Cal‏ على تحسين الأداء الإحصائي GG eee‏ تستخدم الشبكات العصبية الالتفافية مشاركة 
المعاملات. أي أنهم يعيدون استخدام نفس المعاملات للعديد من الدوال. تعطي المعاملات 
المشتركة أيضًا الميزة الرئيسية الأخيرة» التقارب .(Equivariance)‏ التقارب يعني Gal‏ حالة 
ازاحة المدخلات. يتم إزاحة المخرجات بنفس الطريقة. هذه الميزة ضرورية AR‏ البيانات 
ثنائية الأبعادء لأنه إذا تم نقل صورة أو جزء منها إلى موقع آخرني الصورة. فسيكون لها نفس 
العرض. 
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طبقة الالتفاف في keras‏ 

لإنشاء طبقة التفافنی Keras‏ يجب عليك Vol‏ إدخال الوحدات المطلوبة على النحو التالي: 
from keras.layers import Conv2D‏ 

يمكنك بعد ذلك إنشاء طبقة الالتفاف باستخدام التنسيق التالي: 


Conv2D (filters, kernel size, strides, padding,  activation-'relu', 
input. shape) 


يجب عليك إدخال الوسيطات التالية: 


* 168 : تعداد الفلاتر 

:kernel size ®‏ رقم پشیر إلى ارتفاع وعرض نافذة الالتفاف (حجم الكيرنل). 

strides *‏ خطوة الالتفاف. إذا لم تحدد أي شيء ۰ فسیتم تعیینه على واحد افتراضيًا. 

same او‎ valid :padding ® 

activation *‏ عادة ما يتم استخدام دالة التنشيط .relu‏ 
عند استخدام طبقة الالتفاف الخاصة بك كطبقة أولىني النموذج» يجب عليك إدخال وسيطة 
input shape‏ إضافية. هذه مجموعة تحدد ارتفاع المدخلات وعرضها وعمقها (على التوالي). 


تأكد من عدم تضمین وسیطه input shape‏ إذا لم تكن طبقة الالتفاف هی الطبقة 


الأولى فى شبكتك. 


طبقة التجميع (الدمج] 

تتمثل إحدى مزايا طبقات الالتفاففي آنها تقلل عدد المعاملات المطلوبة وتحسن الأداء وتقلل 
من الضبط الزائد. بعد عملية الالتفاف غالبا ما يتم إجراء عملية آخری: الدمج او التجمیع 
(Pooling)‏ تساعد طبقة التجمیع على تقلیل مقدار قوة الحوسبة المطلوبة لمعالجة البیانات 
وهي مسوولة عن تقلیل الأبعاد. بمساعدة تقلیل الأبعاد. يتم تقلیل مقدار قوة المعالجة المطلوبة 
لمعالجة مجموعة البیانات. یمکن تقسیم التجمیع إلى نوعین: تجمیع الحد الأقصى 
(maximum pooling)‏ تجميع المتوسط -(average pooling)‏ النوع الأكثر شيوعًا للتجمیع 
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هو الحد الأقصى من التجميع والشبكات (2×2)ني کل جزء واختيار الخلایا العصبية مع أقصى 
قدر من التنشيطفي كل شبكة واستبعاد الباقي. من الواضح أن مثل هذه العملية تزيل 175 من 
الخلایا العصبية وتحافظ فقط على الخلايا العصبية التي تلعب الدور GSW‏ المقابلءفي 
التجميع المعتمد على المتوسط . يتم حساب متوسط قيمة الکیرنل (الشكل 4-3). 
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شكل 44 الحد الأقصى للتجميع ومتوسط التجميع 
لكل طبقة دمج. هناك معاملان : حجم الخلية وخطوتھاء على غرار معاملات الخطوة والطبقات 
في طبقات الالتفاف. الخیار الشائع هو اختيار حجم الخلية 2 والخطوة 2. ومع ذلك فان اختيار 
حجم الخلية 3 والخطوة 2 لیس من غير المألوف. تجدر الإشارة إلى أنه إذا كان حجم الخلية کبیرا 
جداء فقد تتجاهل طبقة الدمج الكثير من المعلومات وقد لا تكون مفيدة. 


تصنيف الصور مع الشبكة الالتفافية فى keras‏ 
لتصنیف الصورء نحتاج أولاً إلى مجموعة من البيانات والعلامات لکل صورة. لحسن الحظ. لا 
يتعين Ule‏ تجريف الویب (scrape)‏ يدويًا بحا عن الصور ووضع علامة عليها بأنفسناء حيث 
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توجد العديد من مجموعات البيانات (Dataset)‏ القياسية التي يمكننا استخدامها.في هذا المثال. 
سوف نستخدم مجموعة بيانات 10-.016۸18). تفاصيل مجموعة البيانات كما يلي: 


* أبعاد الصورة: صورة مصغرة 32x32‏ بكسل. 

* العلامات (التسميات): 10 علامات (مخرجات) تشمل: طائرة ء سيارة ء طاثر » قطة ء 
غزال . کلب . ضفدع . حصان ء سفینة وشاحنة. 

* حجم مجموعة البيانات: 60.000 صورة مقسمة إلى 50000 بيانات للتدريب و 10000 
بيانات للاختبار. 


أول شيء يتعين علينا القيام به هو استيراد مجموعة بيانات الصورة. نفعل هذا مع Keras‏ عن 
يق تشغيل الكود التالي على ‘jupyter notebook‏ 


from keras.datasets import 0 

(x train, y train), (x test, y test) = cifar10.1oad data() 
Downloading data from https: //www.cs.toronto.edu/~kriz/cifar-10-python. tar.gz 
170500096/170498071 [==============================] - 2s Qus/step 
170508288/170498071 ]==============================[ - 2s Qus/step 


يتم الآن تخزين البيانات التي نحتاجهاني المصفوفات المقابلة (train, y train)‏ و 
bes .(x test, y test‏ نلقی نظرة فاحصة على مجموعة البيانات. دعونا نرى كيف تبدو 
مصفوفة خصائص الإدخال لدينا: 


print('x_train shape:', x_train.shape) 
x_train shape: (50000, 32, 32, 3) 
تحتوي على ما يلي:‎ x train يخبرنا شكل المصفوفة أن مجموعة بيانات‎ 
صورة‎ 50000 = 
ارتفاع 32 بكسل‎ " 
عرض 32 بكسل‎ * 
عمق 3 بکسل (مرتبط باللون الأحمر والأخضر والأزرق)‎ * 
دعونا نرى كيف تبدو مصفوفة العلامات (المخرجات):‎ 
print('y train shape:', y_train.shape) 
y train shape: (50000, 1) 
45) دعنا نحاول‎ OW هذا يعني أن هناك رقمًا (مرتبطًا بالعلامة) لكل صورة من 50000 صورة.‎ 
مثال على صورة وعلامتها لفهم أفضل:‎ 
print(x train[0]) 
CLE 89 A 63] 


L 6 45] 
[ 50 48 43] 
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بينما يرى الکمبیوتر الصورة بهذه الطریقة فإنها ليست مفيدة جد لنا. لذلك دعونا نوضح صورة 
x. 81‏ ]0[ باستخدام حزمة :matplotlib‏ 


import matplotlib.pyplot as plt 
img = plt.imshow(x train[0]) 


plt.imshow‏ هي دالة تعرض قيم البکسل المرقمةفي x train[0]‏ كصورة فعلية. الصورة 
الموضحة أعلاه منقطة ALU‏ وذلك OY‏ حجم الصورة هو 32 x‏ 32 بکسل وهو صغير جدا. 
الآن دعونا نرى ما هي علامة هذه الصورةفي مجموعة البيانات الخاصة بنا: 
print('The label is:', y train[0])‏ 
The label is: [6]‏ 
نرى أن التسمية "6". يتم ترتيب تحویل eli MI‏ إلى تسميات بناءً على حرف الأبجدية الإنجليزية 
على النحو التالي: 
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لذلك. نرى من الجدول أن الصورة أعلاه وصفت بأنها صورة ضفدع (التسمية 6). لنلق نظرة 
على مثال آخر للصورة عن طريق تغییر الفهرس إلى 1 (الصورة الثانيةفي مجموعة البيانات الخاصة 
بنا) بدلا من 0 (الصورة الأولىفي مجموعة البيانات الخاصة بنا): 


img = plt.imshow(x_train[1]) 


دعونا نظهر العلامة كذلك: 
print('The label is:', y_train[1])‏ 
The label is: [9]‏ 

باستخدام الجدول السابق. نرى أن هذه الصورة معلمة على أنها شاحنة. 

الآن بعد أن راجعنا مجموعة البيانات الخاصة بناء نحتاج إلى معالجتها. الملاحظة الأولى التي 
نجريها هي أن تسمياتنا ليست مفيدة جدا كرقم فئة. هذا OM‏ الفصول ليست بالترتيب. لتوضیح 
هذه النقطة دعنا نعطي مثالا. ماذا يحدث إذا لم تتمكن شبكتنا العصبية من تحديد ما إذا كانت 
الصورة سيارة (التسمية: 1) أو شاحنة (التسمية: 9). هل يجب أن نعتبر المتوسط ونتوقعه ککلب 
(التسمية: 5)؟ بالتأكيد مثل هذا الشيء لا معنى له. 
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في الفصل السابق . أنشأنا شبكتنا العصبية الأولى للتنبؤ بأسعار المنازل باستخدام Keras‏ « 
قد تتساءل عن سبب تمكننا من استخدام علامتي ]0[ و ]1[ هناك. هذا بسبب وجود فئتین فقط 
ویمکننا تفسير ناتج الشبكة العصبية على أنه احتمال. بمعنى , إذا كان ناتج الشبكة العصبية 0.6 
> فهذا يعنى آنها تعتقد أنها أعلى بنسبة 160 من متوسط سعر المنزل. ومع ذلك . لا يعمل هذا 
فى تکوینات متعدد: الطبقات مكل هذا المثال « حيث يمكن أن تنتمي الصورة إلى واحد من 10 
cults‏ مختلفة. ۱ 

ما نریده le‏ هو احتمال كل فئة من الفئات العشر المختلفة. من أجل ذلك ۰ نحتاج إلى 10 
عصبونات ناتجة في شبکتنا العصبية. oY GE‏ لدينا 10 LOE‏ عصبية ناتجة ء يجب أن تتطابق 
تسمیاتنا أيضًا. للقیام بذلك » نقوم بتحویل التسمية إلى مجموعة من 10 آرقام . كل منها يشير 
إلى ما ٍذا کانت الصورة تنتمي إلى تلك الفتة أم لا. لذلك إذاكانت الصورة تنتمي إلى الفتة الأولىء 
فسیکون الرقم الأول في هذه الفتة 1 وجمیع الارقام الآخری في هذه الفئة ستکون 0. يسمى هذا 
ترميز (one-hot)‏ « ويكون جدول التحويل لهذا المثال على 55 
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للقيام بهذا التحويل « استخدم Keras‏ مرة أخرى: 


from keras.utils import np_utils 

y_train_one_hot = keras.utils.np_utils.to_categorical(y_train, 10) 
y_test_one_hot = keras.utils.np_utils.to_categorical(y_test, 10) 

يعنى السطر(10 y train one hot = keras.utils.np utils.to categorical(y train,‏ 
cs‏ تأخذ المصفوفة الأصلية برقم y_train‏ فقط ونحولها إلى y_train_one_hot‏ وذلك 
باستخدام ترمیز one_hot‏ الرقم 10 مطلوب كمعامل BY‏ يجب عليك إخبار الدالة بعدد الفتات 


الموجودة. 
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)9 لنفترض أننا نريد أن نرى كيف تبدو تسمية الصورة الثانية (الشاحنة ذات العلامة:‎ «OVI 
في هذا الكود:‎ 
print('The one hot label is:', y_train_one_hot[1]) 
The one hot label is: [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.] 
أيضًا. الخطوة‎ (x) الخاصة بنا ء قد نرغب فی معالجة صورتنا‎ (y) الآن بعد أن عالجنا علامات‎ 
الشائعة التي نتخذها هي ترك القيم بين 0 و1 مسا ساعد فل ھرب ا ا‎ 
بين 0 و 255 ۰ فنحن نحتاج ببساطة إلى تقسيمها على‎ lod لأن قيم البكسل لدينا تأخذ بالفعل‎ 
255 


x train = x train.astype('float32') 
x test = x_test.astype('float32') 

x train = x train / 255 

x test = x test / 255 


عملياء ما نقوم به هو تحويل النوع إلى "۲1102132 « وهو نوع بيانات يمكنه تخزين القيم في 
الكسور العشرية. ثم نقسم كل خلية على 255. إذا كنت ترغب في ذلك » يمكنك إلقاء نظرة على 
قيم المصفوفات للصورة التدريبية الأولى عن طريق تنفيذ الخلية: 

x train[0] 


array([[[0.23137255, 0.24313726, 0.24705882] 
[0.16862746, 0.18039216, 0.1764706 ], 


[0.19607843, 0.1882353 , 0.16862746], 


,]0.42352942 , 0.5176471 ,0.61960787[ 
و 0.4 ,0.49019608 ,0.59607846] 
,]]40392157.@ , 0.4862745 , 0.5803922[ 


[[0.0627451 , 0.07843138, 0.07843138] 
[0. , 0. , 9. ds 
[0.07058824, 0.03137255, ۰ 1 
[0.48235294, 0.34509805, 0.21568628], 
[0.46666667, 0.3254902 , 0.19607843], 
[0.47843137, 0.34117648, @.22352941]], 

[L@.09803922, 0.09411765, 0.08235294], 
[0.0627451 , 0.02745098, 0. ] 
[0.19215687, 0.10588235, 0.03137255 


[0.4627451 , 0.32941177, 0.19607843], 
[0.47058824, 0.32941177, 0.19607843] 


[0.42745098, 0.28627452, 0.16470589] 


دی 


vx 


[[0.8156863 , 0.6666667 , 0.3764706 ], 
[0.7882353 , 0.6 , 0.13333334], 
[0.7764706 , 0.6313726 , 0.10196079], 


[0.627451 , 0.52156866, 0.27450982], 
[0.21960784, 0.12156863, 0.02745098], 
[0.20784314, 0.13333334, 0.07843138]1], 


[[0.7058824 , 0.54509807, 0.3764706 ], 
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[0.6784314 , 0.48235294, 0.16470589], 
[0.7294118 , 0.5647059 , 0.11764706], 
[0.72156864, 0.5803922 , 0.36862746], 
[0.38039216, 0.24313726, 0.13333334], 
[0.3254902 , 0.20784314, @.13333334]], 
[[0.69411767, 0.5647059 , 0.45490196], 
[0.65882355, 0.5058824 , 0.36862746], 
[0.7019608 , 0.5568628 , 0.34117648], 
[0.84705883, 0.72156864, 0.54901963], 
[0.5921569 , 0.4627451 , 0.32941177], 


[0.48235294, 0.36078432, 0.28235295]]], dtype-float32) 
حتى الآن لدينا مجموعة تدريب واحدة ومجموعة اختبار واحدة. على عكس المثال الوارد في‎ 
الفصل السابق . لا نقوم بتقسيم مجموعة التحقق الخاصة بنا مقدمّا ء حيث يوجد اختصار لهذا‎ 
سنقوم بتقديمه لاحقا.‎ 
معمارية‎ by على غرار المثال السابق . يجب علینا ولأ تحدید معمارية النموذج الخاصة‎ 


CNN‏ التي سنبنیها هي كما يلي: 
.3 الصورة المدخلة 
التصنيف » 1 yrvxvvxv‏ 
Y)‏ کلاس) ۱ 
e Conv Layer (32 Filter size 3X3)‏ 


وقيم معاملات المعمارية المذكورة أعلاه تتلخص على النحو التالي: 
e Conv Layer (32 Filter size 3X3)‏ 


e Max Pool Layer (Filter size 2x2) 

e Dropout Layer (Prob of dropout 0.25) 
e Conv Layer (64 Filter size 3X3) 

e Conv Layer (64 Filter size 3X3) 

e Max Pool Layer (Filter size 2x2) 

e Dropout Layer (Prob of dropout 0.25) 
e FC Layer (512 neurons) 

e Dropout Layer (Prob of dropout 0.5) 
e FC Layer, Softmax (10 neurons) 


طبقة الدمج حد اقصى 


تحتوي هذه المعمارية على الكثير من الطبقات (أكثر مما رأيناه من قبل) ء ES‏ كلها مبنية من 
مفاهيم رأيناها من قبل. ومع ذلك ‏ يتم إنشاء کل طبقة بسطر واحد فقط من التعليمات البرمجية 
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ولا داعي للقلق! لاحظ أن وظيفة softmax‏ تقوم ببساطة بتحويل إخراج الطبقة السابقة إلى 
توزيعات محتملة » وهو ما نريده لمشكلة التصنيف الخاصة بنا. 

لبرمجة هذا . سنستخدم نموذج Keras‏ المتسلسل. ومع ذلك . نظرًا OY‏ لدينا العديد من 
الطبقات في نموذجنا . فإننا نقدم طريقة جديدة للتسلسل. نمر عبر الكود سطرًا سطرًا حتى تتمكن 
من متابعة ما نفعله بالضبط. أولاً نقوم بإدخال بعض التعليمات البرمجية التي نحتاجها: 


from keras.models import Sequential 
from keras.layers import Dense, Dropout, Flatten, Conv2D, MaxPooling2D 


ثم نقوم بإنشاء نموذج تسلسلي فارغ: 

model = Sequential() 
نضيف طبقة واحدة إلى هذا النموذج الفارغ في كل مرة. الطبقة الأولى (إذاكنت تتذكر من الشكل‎ 
السابق) هي طبقة الالتفاف مع حجم فلتر 3:23 ۰ وحجم الخطوة 1 وعمق 32. الطبقة هي نفسها‎ 
bea ومع ذلك.‎ (CNN التکوینان ينطبقان على جميع طبقات‎ olia) "relu" والمنشط هو‎ 
نحدد الطبقة الأولى بالكود التالي:‎ 


model.add(Conv2D(32, (3, 3), activation-'relu', padding-'same', 
input shape-(32,32,3))) 


ما يفعله هذا الكود هو إضافة هذه الطبقة إلى نموذجنا المتسلسل الفارغ باستخدام الدالة 
model. add)‏ . الرقم الأول 326 يشير إلى عدد الفلاتر. الزوج التالي من الأرقام (3.3) يشير 
إلى عرض وحجم الفلتر. ثم نحدد التنشيط وهو 'relu‏ والطبقة .'same'‏ لاحظ أننا لم نحدد 
خطوة . هذا stride=1 oY‏ هي إعداد افتراضي ولسنا بحاجة إلى تحديده ما لم نرغب في 
تغييره. إذا كنت تتذكر ء فنحن بحاجة Cad‏ إلى تحديد حجم الإدخال لطبقتنا الأولى. لا تحتوي 
الطبقات اللاحقة على هذه المواصفات . حيث يمكنها استنتاج حجم الإدخال من حجم الإخراج 
للطبقة السابقة. تبدو الطبقة الثانية في الكود على هذا النحو (لا نحتاج إلى تحديد حجم الإدخال): 
model .add(Conv2D(32, (3, 3), activation='relu', padding='same'))‏ 
الطبقة التالية هي طبقة حد اقصى من التجميع بحجم تجميع 2 × 2 وخطوتين. الحجم الافتراضي 
لطبقة اقصى حد من التجميع هو 2 x‏ 2 . لذلك لا نحتاج إلى تحديد هذه الخطوة: 
model .add(MaxPooling2D(pool_size=(2, 2)))‏ 
أخيرًا ٠‏ نضيف طبقة الحذف العشوائي مع احتمال 0.25 لمنع :overfitting‏ 
model .add(Dropout(@. 25))‏ 
الآن قمنا بإنشاء أول أربع طبقات مع الكود. تبدو الطبقات الأربع التالية متشابهة حقا: 
model.add(Conv2D(64, (3, 3), activation='relu', padding='same'))‏ 


model.add(Conv2D(64, (3, 3), activation-'relu', padding-'same')) 
model .add(MaxPooling2D(pool_size=(2, 2))) 


الفصل الرابع: الشبكة العصبية الالتفافية 


model .add(Dropout(@. 25))‏ 
أخيرًا « نحتاج إلى برمجة الطبقة المتصلة بالكامل . وهو ما يشبه ما فعلناه في المثال في الفصل 
السابق. ومع ذلك . في هذه المرحلة . یتم ترتيب الخلايا العصبية لدينا في مكعب بدلاً من صف. 
لوضع هذا الشكل الشبيه بالمكعب من الخلايا العصبية في صف واحد . يجب أن نقوم أولاً 
بتسويته. نقوم بذلك عن طريق إضافة طبقة ‘Flatten‏ 
model .add(Flatten())‏ 
الآن . نحن بحاجة إلى إنشاء طبقة متصلة بالکامل بها 512 خلية عصبية ودالة التنشيط irelu‏ 
model.add(Dense(512, activation='relu'))‏ 
ثم نضيف bir‏ عشوائيًا آخر باحتمال 0.5 
model.add(Dropout(0.5))‏ 
أخيرًا ء قمنا بإنشاء طبقة متصلة بالكامل بها 10 LOE‏ عصبية ودالة التنشيط :softmax‏ 
model.add(Dense(10, activation='softmax'))‏ 
تم الانتهاء OYI‏ من بناء معماريتنا. الآن . لرؤية ملخص للمعمارية الكاملة » نقوم بتشغيل الكود 
التالي: 
model. summary ()‏ 


Model: "sequential" 


Layer (type) Output Shape Param # 
convd (Conv2D) (None, 32, 32, 32) 896 ×_ 
conv2d 1 (Conv2D) (None, 32, 32, 32) 9248 

max .pooling2d (MaxPooling2D) (None, 16, 16, 32) 0 
max_pooling2d_1 (MaxPooling2D) (None, 8, 8, 32) 0 
dropout (Dropout) (None, 8, 8, 32) 0 

flatten (Flatten) (None, 2048) 0 

dense (Dense) (None, 512) 1049088 
dropout_1 (Dropout) (None, 512) 0 

dense_1 (Dense) (None, 10) 5130 


Total params: 1,064,362 
Trainable params: 1,064,362 
Non-trainable params: 0 


بعد ذلك c‏ نقوم بتجميع النموذج باستخدام الاعدادات التالية: 


110061 ۰ compile(loss='categorical_crossentropy', 
optimizer='adam', 
metrics-['accuracy' ]) 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


تسمى دالة الخطاً التى نستخدمها فتة الانتروبيا المتقاطعة .'categorical crossentropy'‏ 
المحسن لدينا هنا هو adam‏ أخيرًا » نريد تتبع دقة نموذجنا. 
حان الوقت OW‏ لتشغيل برنامج تدريب النموذج: 


hist = model.fit(x_train, y_train_one_hot, 
batch_size=32, epochs=20, 
validation split-0.2) 


نقوم بتدريب نموذجنا بأحجام دفعات من 32 و 20 دورة. ومع ذلك ۰ هل لاحظت اختلافاً في 
الكود؟ نستخدم الإعداد 0.2 = validation split‏ بدلاً من validation data‏ باستخدام هذا 
الاختصار » لا نحتاج إلى تقسيم مجموعة البيانات الخاصة بنا إلى مجموعة تدريب ومجموعة 
العحقق من السا فی البدانة Nas‏ من لاف تحدد بساطة مقدار مجموغة cold‏ المستخدمة 
2۶ 0 الصحة. في هذه الحالة ء يتم استخدام 20/ من مجموعة البیانات الخاصة 
نا کمجموعة فحقق. قم بتشفیل الخلیة وستری آن الشرذع بیدا العدريب: 


Epoch 0 

1250/1250 [= J] - 27s 14ms/step 
val_accuracy: @.5885 
Epoch 2/20 
1250/1250 [= ل‎ - 175 14ms/step - loss: 1.1323 - accuracy: 0.6000 - val loss: 1.0689 - 
val accuracy: 0.6276 
Epoch 3/20 
1250/1250 [- ل‎ - 17s 13ms/step - loss: 0.9810 - accuracy: 0.6534 - val loss: 0.9494 - 
val accuracy: 0.6725 
Epoch 4/20 
1250/1250 [- ]- 175 14ms/step - loss: 0.8859 - accuracy: 0.6900 - val loss: 0.9151 - 
val accuracy: 0.6828 
Epoch 5/20 
1250/1250 [- J] - 18s 15ms/step - loss: 0.8015 - accuracy: 0.7171 - val loss: 0.9117 - 
val accuracy: 0.6802 
Epoch 6/20 
1250/1250 [- ل‎ - 18s 14ms/step - loss: 0.7203 - accuracy: 0.7469 - val loss: 0.8959 - 
val accuracy: 0.6874 
Epoch 7/20 

1250/1250 [- ل‎ - 175 14ms/step - loss: 0.6486 - accuracy: 0.7709 - val loss: 0.8811 - 
val accuracy: 0.7066 
Epoch 8/20 
1250/1250 [- ]- 175 14ms/step - loss: 0.5960 - accuracy: 0.7902 - val loss: 0.9053 - 
val accuracy: 0.7055 
Epoch 9/20 
1250/1250 [- ل‎ - 17s 13ms/step - loss: 0.5312 - accuracy: 0.8129 - val loss: 0.9100 - 
val accuracy: 0.6982 
Epoch 10/20 
1250/1250 [- ل‎ - 18s 14ms/step - loss: 0.4887 - accuracy: 0.8262 - val loss: 0.9183 - 
val accuracy: 0.7077 
Epoch 11/20 
1250/1250 [- ل‎ - 185 14ms/step - loss: 0.4483 - accuracy: 0.8415 - val loss: 0.9454 - 
val accuracy: 0.7083 
Epoch 12/20 
1250/1250 [-- ل‎ - 17s 13ms/step - loss: 0.4195 - accuracy: 0.8514 - val loss: 1.0072 - 
val accuracy: 0.7062 
Epoch 13/20 
1250/1250 [- ل‎ - 18s 14ms/step - loss: 0.3889 - accuracy: 0.8625 - val loss: 0.9655 - 
val accuracy: 0.7089 
Epoch 14/20 
1250/1250 [- ل‎ - 18s 14ms/step - loss: 0.3591 - accuracy: 0.8764 - val loss: 1.0041 - 
val accuracy: 0.7042 
Epoch 15/20 
1250/1250 [- ل‎ - 175 13ms/step - loss: 0.3372 - accuracy: 0.8814 - val loss: 1.0220 - 
val accuracy: 0.7133 
Epoch 16/20 
1250/1250 [- ل‎ - 185 14ms/step - loss: 0.3242 - accuracy: 0.8868 - val loss: 1.0927 - 
val accuracy: 0.7041 
Epoch 17/20 
1250/1250 [- ] - 23s 18ms/step - loss: 0.3053 - accuracy: 0.8925 - val loss: 1.0579 - 
val accuracy: 0.7046 
Epoch 18/20 
1250/1250 [- ل‎ - 18s 14ms/step - loss: 0.2917 - accuracy: 0.8990 - val loss: 1.0833 - 
val accuracy: 0.7061 
Epoch 19/20 
1250/1250 [- ل‎ - 175 14ms/step - loss: 0.2825 - accuracy: 0.9014 - val loss: 1.0957 - 
val accuracy: 0.7165 

Epoch 20/20 


oss: 1.4824 - accuracy: 0.4623 - val loss: 1.1698 - 


الفصل الرابع: الشبكة العصبية الالتفافية 


1250/1250 ]==============================[ - 175 14ms/step - loss: 0.2700 - accuracy: 0.9064 - val loss: 1.0855 - 
val accuracy: 0.7131 


بعد الانتهاء من التدريب e‏ يمكننا استخدام هذا الكود . الذي رأيناه في بناء شبكتنا العصبیة الأولىء 


plt. 
plt. 
plt. 
plt. 
plt. 
plt. 
plt. 


لتوضيح خطأ التدریب والتحقق من الصحة بالنسبة لعدد الدورات: 


.plot(hist.history['loss']) 
.plot(hist.history['val loss']) 
.title('Model loss') 

.ylabel('Loss') 

.Xlabel('Epoch') 

.legend(['Train', 'Val'], loc-'upper right') 
. show() 


Model loss 


plot(hist.history['loss']) 
plot(hist.history['val loss']) 

title('Model loss') 

ylabel('Loss') 

xlabel('Epoch') 

legend(['Train', 'Val'], loc-'upper right') 
show() 
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التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


كما يتضح « ان النموذج overfitting‏ في هذه المرحلة ء آوصي بالعودة وتجربة العديد من 
المعاملات مثل تغيير المعمارية أو تغيير عدد الدورات التدريبية لمعرفة ما إذا كان يمكنك 
الحصول على val Bo‏ أفضل. بمجرد أن تشعر بالرضا عن النموذج الخاص بك . يمكنك تقييمه 
في مجموعة الاختبار: 


model.evaluate(x test, y_test_one_hot)[1] 


313/313 ]==============================[ - 2s 5ms/step - loss: 1.1410 - accuracy: 0.6924 
0.6923999786376953 


كما يتضح . النموذج غير فعال للغاية. ومع ذلك . فهو يعمل بشكل أفضل من التخمين العشوائي. 
في هذه المرحلة ء قد ترغب في حفظ نموذجك المدرّب (بافتراض أنك تبني نموذجًا جيد 
الاداء مع ضبط دقيق للمعاملات الفائقة). يتم تخزين النموذج في ملف يسمى 110075 (مع 
الامتداد 5). نحفظ نموذجنا بهذا السطر من التعليمات البرمجية: 
model.save('my_cifar1@_model.h5')‏ 
استخدم سطر الكود التالي هذا إذا كنت تريد تنزيل النموذج المحفوظ في المستقبل: 


from keras.models import load_model 
model = load_model('my_cifar10_model.h5') 


باختصار ‏ أنشأنا أول شبكة CNN‏ لدينا لإنشاء مصنف للصور. للقيام بذلك . استخدمنا نموذج 
Keras Sequential‏ لتحديد البنية وتدريبها على مجموعات البيانات التى قمنا بمعالجتها 
بالفعل. لقد قمنا Caf‏ بحفظ نموذجنا حتى نتمكن من استخدامه dictos salia ead GY‏ 
الحاجة إلى إعادة تدريب النموذج. 

الآن بعد أن أصبح لدينا نموذج . دعنا نجربه على صورنا. للقيام بذلك . قم بتنزيل صورة (بناء 
على واحدة من فتات مجموعات البيانات العشر) من الإنترنت وضعها في نفس مجلد 
notebook‏ نستخدم صورة القطة أدناه: 


ملف الصورة هو ."cat-jpg”‏ نقرأ الآن ملف JPEG‏ هذا كمجموعة من قيم البكسل: 


my image = plt.imread("cat.jpg") 


الفصل الرابع: الشبكة العصبية الالتفافية 


أول شيء يتعين علينا القيام به هو تغيير حجم الصورة القطة لدينا حتى نتمكن من وضعها في 
نموذجنا (حجم الادخال 3 x 32 x‏ 32). بدلاً من برمجة دالة تغيير الحجم بأنفسنا ء Les‏ 
نستخدم حزمة تسمى "scikit-image"‏ لمساعدتنا في القيام بذلك: 


from skimage.transform import resize 
my_image_resized = resize(my_image, (32,32,3)) 


يمكننا رؤية صورتنا التي تم تغيير حجمها على النحو التالي: 


img = plt.imshow(my_image_resized) 


لاحظ أن حجم الصورة التي تم تغيير حجمها يحتوي على قيم بكسل تم قياسها بالفعل بين 0 و 
1 لذلك لا نحتاج إلى تطبيق خطوات المعالجة المسبقة التي قمنا بها سابقًا لصورة البرنامج 
التدريبي الخاصة بنا. الآن ٠‏ باستخدام الكود model predict‏ ء نرى كيف سیبدو ناتج نموذجنا 
المدرب عند إعطائنا صورة قطة: 


import numpy as np 
probabilities = model.predict(np.array( [my_image_resized,] )) 


ناتج الكود أعلاه هو ناتج 10 LOE‏ عصبية مرتبطة بتوزيع الاحتمالات على الفئات. إذا قمنا 
بتشغيل الخلية ء سيكون لدینا: 

probabilities 

array([[2.6720341e-02, 3.1344647e-05, 1.5095539e-01, 3.8518414e-01, 


3.3354717e-03, 3.2324010e-01, 5.1648129e-02, 5.7933435e-02, 
9.2716294e-04, 2.4454062e-05]], dtype-float32) 


قم بتنفيذ مقتطف الكود التالي لقراءة توقعات النموذج بسهولة: 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


number. to class = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 
"horse', Ship, "trüuck'] 

index = np.argsort(probabilities[0, : ]) 

print("Most likely  class:", number to. class[index[9]], "--  Probability:", 
probabilities[0, index[9]]) 

print("Second most likely class:", number_to_class[index[8]], "-- Probability:", 
probabilities[0, index[8]]) 

print("Third most likely class:", number to class[index[7]], "-- Probability:", 
probabilities[0,index[7]]) 

print("Fourth most likely class:", number. to class[index[6]], "-- Probability:", 
probabilities[0, index[6]]) 

print("Fifth most likely class:", number to class[index[5]], "-- Probability:", 
probabilities[0, index[5]]) 


Most likely class: cat -- Probability: 0.31140402 

Second most likely class: horse -- Probability: 0.296455 
Third most likely class: dog -- Probability: 0.1401798 
Fourth most likely class: truck -- Probability: 0.12088975 
Fifth most likely class: frog -- Probability: 0.078746535 


كما تری » توقع النموذج بدقة أن الصورة المدخلة كانت في الواقع صورة قطة. ومع ذلك . هذا 
ليس أفضل نموذج لدينا ودقته منخفضة جد . لذلك لا يجب أن تتوقع الكثير منه. يغطي هذا 
المثال أساسيات شبكات CNN‏ فقط في مجموعة بيانات بسيطة جدا. كتمرين ۰ يمكنك بناء 
نماذج أخرى لمجموعة البيانات هذه ومقارنة النتائج. 

خلاصة الفصل 

* تستخدم الشبكات العصبیة الالتفافیة الالتفاف بدلاً من مضاعفة المصفوفة في طبقة واحدة 
على الأقل من طبقاتها. 

* يؤدي تحديد الميزات من خلال تطبيق الفلاتر إلى إنتاج خريطة الميزات. 

* يشار إلى طبقة الالتفاف Cat‏ باسم طبقة استخراج الميزات. لأنه يتم استخراج خصائص 
الصورة في هذه الطبقة. 


اختبار 


ما هي المعمارية العامة للشبكة الالتفافية؟ 

ما هي السمات المميزة الثلاثة للشبكات الالتفافية؟ 
ما هي أجزاء طبقة الالتفاف؟ 

ما هي فوائد استخدام الالتفاف؟ 

ما هو دور طبقة التجمیع في الشیکات الالتفافیة؟ 


uk ON حم‎ 


—— 
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التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


المقدمة 
تتلقی بنية الشبكة العصبية التي تمت مناقشتهاني الفصول السابقة مدخلات ذات حجم ثابت 
وتوفر مخرجات ذات حجم ثابت. يقدم لنا هذا الفصل مقدمة عن الشبكات العصبية المتكررة 
«(Recurrent Neural Networks)‏ أو اختصارا .RNN‏ تساعدنا شبكات GRNN‏ 
التعامل مع التسلسلات متغيرة الطول من خلال تحديد حلقة التغذية الراجعة على هذه 
(sequences) Ldi‏ . تجعل القدرة على معالجة تسلسل الإدخال المخصص شبكات 
RNN‏ قابلة للاستخدامنی مهام مثل نمذجة اللغة والتعرف على الكلام والمزيد.في الواقع» من 
الناحية النظریة يمكن تطبيق RNNs‏ على أي مشكلة لأنه ثبت آنها 'Turing-Complete‏ 
هذا يعني أنه من الناحية النظرية. يمكنهم محاكاة أي برنامج لا يستطيع الكمبيوتر العادي حسابه. 
على سبيل JEI‏ اقترح Google DeepMind‏ نموذجا يسمى آلات تورينج العصبية التي 
يمكن أن تعلمك LAS‏ تشغيل خوارزمیات بسيطة مثل الفرز. 
ماهي الشبكة العصبية المتكررة؟ 
فى الفصل السابق. وصفنا بنية الشبكات العصبية الالتفافية التی تشكل الأساس للعديد من أنظمة 
i5)‏ الحاسوبية المتقدمة. ومع ذلك. فإننا لا ندرك العالم M‏ حولنا بالبصر وحده. على سبيل 
المثال» يلعب الصوت Cai‏ دورًا ege‏ جدا. وبشكل أكثر تحدیدا. نحب نحن البشر التواصل 
والتعبير عن الأفكار والأفكار المعقدة من خلال تسلسلات رمزية وتمثيلات مجردة. ومن ثم 
فمن المنطقي أننا نريد أن تكون الآلات قادرة على فهم المعلومات المتسلسلة. 

عندما يتم ترتيب البيانات بحيث يكون لكل قطعة نوع من العلاقة مع القطع التي تم إنشاؤها 
قبلها وبعدهاء يشار إليها باسم التسلسلات. الشبكات العصبية المتكررة هي نوع من الشبكات 
العصبية الاصطناعية المصممة لاكتشاف الأنماطفي البيانات المتسلسلة مثل النص المادة الوراثية 
والكتابة اليدوية والكلمات المنطوقة وبيانات السلاسل الزمنية وأسواق الأسهم وما إلى ذلك. 
الفكرة من وراء هذه الشبكات العصبية هي أنها تسمح للخلايا بالتعلم من الخلايا المرتبطة سابقا. 
يمكن القول إن هذه الخلايا لها "ذاكرة" بطريقة ما. ومن ثم فإنهم يبنون معرفة AST‏ تعقیدا من 
بيانات الإدخال. 

تشترك النماذج التي تمت دراستها في الفصول السابقة في شيء واحد. بعد الانتهاء من عملية 
التدریب ‏ يتم إصلاح الأوزان وتعتمد المخرجات على عينة الإدخال فقط. من الواضح أن هذا 
السلوك متوقع من المصنف c‏ ولكن هناك العديد من السيناريوهات التي يجب على المتنبئ فيها 
مراعاة محفوظات قيم الإدخال. السلسلة الزمنية هي مثال كلاسيكي على ذلك. لنفترض أن علينا 


1 Alex Graves and Greg Wayne and Ivo Danihelka (2014). "Neural Turing Machines". 


الفصل gal JI‏ : الشبكة العصبية المتكررة 


توقع درجة حرارة الأسبوع المقبل. إذا حاولنا استخدام آخر قيمة معروفة ل x(t)‏ و MLP‏ مدرب 
للتنبؤ ب (1 + )> فلا یمکننا النظر في الظروف الزمنية مثل الموسم وتاريخ الموسم على مر 
السنین وما إلى ذلك. سيكون الانحدار قادرًا على ربط المخرجات التي تنتج أدنى متوسط للخطأء 
ولكن في المواقف الحقيقية . هذا لا يكفي. الطريقة المعقولة الوحيدة لحل هذه المشكلة هي 
تحديد بنية جديدة للخلايا العصبية الاصطناعية لتوفير ذاكرة لها. يظهر هذا المفهوم في الشكل 
أدناه: 


لم تعد الخلية العصبية وحدة حوسبة امامية التغذية GLS‏ » حیث أن اتصالها الراجع يجبرها على 
تذكر ماضيها واستخدامها للتنبؤ بقيم جديدة. 


JI ESI‏ شبكة Jl‏ بيت Jl‏ 51 رة 
افترض شبكة عصبية تقليدية . كما هو موضح في الشكل آدناه: 
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لدينا عدد من المدخلات ,× . حيث تمثل ٤‏ خطوة زمنية أو تسلسل. لنفترض أن مدخلات t‏ 
المختلفة مستقلة عن بعضها البعض. يمكن كتابة ناتج الشبكة في كل hi = f (Xp) St‏ 

فی RNNs‏ ۰ تنقل حلقة التغذية الراجعة معلومات JUI‏ الحالية إلى الحالة التالية .كما هو 
موضح في الإصدار المفتوح من الشبكة LS.‏ هو موضح آدناه.: 


[OTT T 
نے اند تفت سج‎ 


© © © © 

يمكن كتابة ناتج شبكة RNN‏ في کل f Che- xt) St‏ = ۸. يتم إجراء نفس الشيء گر على 
كل عنصر من عناصر التسلسل . ويعتمد ناتج hy‏ على ناتج الحسابات السابقة. وبالتالي . على 
عكس الشبكات التقليدية . حيث تعتمد الحالة فقط على المدخلات الحالية (ووزن الشبكة) . 
هنا hy‏ هي دالة للإدخال الحالي بالإضافة إلى الحالة السابقةر-,/. يمكنك اعتبار وع[ بمثابة 
atl‏ لخبي CEs‏ الشركة السابقة. 

بفضل بنية السلسلة هذه . أو بعبارة أخرى . التخزين الاضافي (الذاكرة) مما تم حسابه حتى 
COMI‏ تم تحقيق نجاح كبير في استخدام RNN‏ في السلاسل الزمنیة والبيانات المتسلسلة. 


تحصل RNNs‏ على اسمها من هذا لأنها تطبق نفس الدالة بشكل Jj Aio‏ على التسلسلات. 


تحتوي RNN‏ على ثلاث مجموعات من المعاملات (الوزن): 


* تا يحول الادخال ,2 إلى ۽۸ . 

hi يحول الحالة السابقة وع إلى الحالة الحالية‎ W =E 

٭ ۷ یعیّن الحالة الداخلية المحسوبة eum‏ ل hy‏ إلى الناتج /[ . 
تطبق U‏ و W‏ و ۷ التحویل الخطی على المدخلات المقابلة. الحالة الأساسية لمثل هذا التحویل 
هي مجموع اوزان مانعرفه. یمکننا الآن تحدید الحالة الداخلية ومخرجات الشبكة على النحو 
التالی: 

hy = f (hui + W + x, *U) 
Ye 2۷ 

fit‏ دالة تنشيط غير خطية. 
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لاحظ أنه في RNN‏ ۰ تعتمد كل حالة على جميع الحسابات السابقة من خلال هذه العلاقة 
التكرارية. من الدلالات المهمة أن RNN5‏ لها ذاكرة بمرور الوقت  ROVE oM‏ تحتوي على 
معلومات تستند إلى الخطوات السابقة. من الناحية النظرية . يمكن RNNsS‏ تخزين المعلومات 
طالما رغبوا في ذلك. . لکن في الممارسة العملية يمكنهم فقط النظر إلى الوراء بضع خطوات. 


انواع معماريات RNN‏ 


نظرًا oY‏ ء۸ لا تقتصر على معالجة المدخلات ذات الحجم الثابت ۰ فهي تتضمن بنى 
PM‏ 


* واحد لواحد: كما يمكن رؤيته في الشكل المقابل . في هذه à‏ يتم تعيين © 
وحدة إدخال RNN‏ إلى وحدة مخفية ووحدة إخراج. هذه LII‏ هي عملية 
متسلسلة مثل الشبكات العصبية أمامية التغذية والشبكات العصبية RUY‏ | 
مثال على هذه العملية هو تصنيف الصور. = 

* واحد إلى متعدد: كما يتضح من الشكل أدناه . في e e‏ © 
هذه RE‏ ء يتم تعيين وحدة إدخال RNN‏ إلى 
عدة وحدات مخفية وعدة وحدات إخراج. المثال | | | 


EH 5.5777 77‏ 
الإدخال صورة وتعيينها إلى عدة كلمات. 3 


" متعدد إلى واحد: كما يتضح من الشكل O‏ 
المقابل ء في هذه البنية . يتم تعيين عدة لیے 
وحدات إدخال RNN‏ إلى عدة وحدات 


مخفية ووحدة إخراج واحدة. مثال عملي | ۱ 
eee‏ الا سو كيت امار ها EN‏ ۲ 
.(Sentiment analysis)‏ تتلقى ib‏ | ۱ | 
الإدخال إشارات متعددة من كلمات الجملة 

pees‏ يساية پ), RÀ RE‏ ھ+ 
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" متعدد لمتعدد: كما يتضح من الشكل المقابل 
> في هذه البنية ء یتم تعيين العديد من وحدات © و o‏ 
إدخال T RNN‏ عدة وحدات مخفية وعدة | | | 
الترجمة الآلية. تستقبل طبقة الإدخال عدة 
أحرف من كلمات اللغة المصدر وتربطها | | | 
بأحرف الكلمات في اللغة الهدف. O O‏ ® 
gj‏ نص باستخدام RNN‏ 


تستخدم ۶ بشكل شائع كنماذج لغوية Jl ¿(language models)‏ معالجة اللغة 
الطبيعية (natural language processing)‏ نعتزم العمل على لغة مثيرة للاهتمام uus‏ لنمذجة 
توليد النصء حيث تستخدم نماذج RNN‏ لتعلم التسلسلات النصية لمجال معين ثم لإنشاء 
تسلسل نصي جدید GLS‏ ومعقول‌في المجال. يمكن لمولّد النص المستند إلى RNN‏ أن يأخذ 
أي نص إدخال» كالروايات مثل هاري بوتر وأشعار شكسبير وسيناريوهات لأفلام مثل حرب 
النجوم» وانتاج قصائد شكسبير وسيناريوهات حرب النجوم. إذا كان النموذج مدربًا oe‏ فیجب 
أن يكون التركيب مقبولًا وقراءته مشابهة للنص الأصلي.في هذا الجزء نستخدم رواية "الحرب 
والسلام' للمؤلف الروسي ليو تولستوي کمثال. ومع ذلك. يمكنك استخدام أي من كتبك 
المفضلة کمدخلات تدريبية. يعد مشروع جوتنبرج (www.gutenberg.org)‏ مصدرًا رائعًا 
لذلك. حيث نفد طباعة ما يزيد عن 57000 کتاب رائع مجانا. 
أولا عليك تحميل ملف warpeace input.txt‏ مياشرة من الرابط: 
https://cs.stanford.edu/people/karpathy/char-rnn/warpeace_input.txt‏ 
من ناحية آخری. یمکننا تنزيله من مشروع جوتنبرج. 
https://www.gutenberg.org/ebooks/2600‏ 
نحمل الملف. لكننا بحاجة إلى إجراء بعض التنظيف. ثم نقرأ الملف ونحول النص إلى أحرف 
صغيرة ونلقي نظرة سريعة عليه بطباعة أول 100 حرف.: 
training_file = 'warpeace_input.txt'‏ 
raw_text = open(training_file, 'r').read()‏ 


raw text = raw. text.lower() 
raw text[:100] 


'ufeff"well, prince, so genoa and lucca are now just family estates 
of thenbuonapartes. but i warn you, i' 


OVI‏ نحن بحاجة إلى حساب عدد الأحرف: 


n chars = len(raw text) 
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print('Total characters: {}'.format(n_chars)) 
Total characters: 3196213 
بعد ذلك. یمکننا الحصول على أحرف وأحجام كلمات فريدة:‎ 


chars = sorted(list(set(raw text))) 

n_vocab = len(chars) 

print('Total vocabulary (unique characters): {}'.format(n_vocab) ) 
print(chars) 


Total vocabulary (unique characters): 7 


] ۲۱۳۲, ۱ E EM چو ؟‎ ee KG DUM IN پا‎ Math ۱ » DM "ots 
UEM 2 کہا‎ A, 5 '6', NEM '8', '9', ee Em 2 Es 
'a', 'b', 'c', 'd', 'e', "f. 'g', 'h', "ut. 5 'k', TS, 'm', 
'n', 'o', 'p', 'q', 'r', 's', vp S 'u', ۷ 'w', و(‎ 'y', "zt. 
ر'اٹ'‎ 'ä', 'é', ۵, '\ufeff'] 


(OVI‏ لدينا مجموعة بيانات تدريبية خام تتكون من أكثر من 3 ملايين حرف و57 حرفا فریدا. 
ولكن كيف يمكننا تغذيته لنموذج GIRNN‏ معمارية متعدد لمتعدد. يأخذ النموذج المتتاليات 
وينتج المتتالياتفي وقت واحد.في حالتناء یمکننا تغذية النموذج بتسلسلات أحرف ثابتة الطول. 
طول متتاليات الإخراج يساوي متتاليات الادخال. ويتم نقل حرف واحد من تسلسلات الادخال 
الخاصة بهم. لنفترض أننا قمنا بتعيين طول التسلسل على 5 لكلمة learning‏ يمكننا OV‏ إنشاء 
عينة تدريبية مع مدخلات learn‏ ومخرجات .earni‏ یمکننا توضيح هذا الإجراءنی الشبكة على 
النحو التالي: 


— 


| IT? 
hl ah 
5 e 8 © 


لقد قمنا للتو بعمل تدريبي. بالنسبة لمجموعة البرامج التدريبية بأكملهاء يمكننا تقسيم بيانات 
النص الخام إلى تسلسلات متساوية الطول. على سبيل المثال 100. كل تسلسل من أحرف 
الإدخال هو مثال تدريب. ثم نقوم بتحليل بيانات النص الخام بنفس الطريقة. ولكن هذه المرة 
نبدأ بالحرف الثاني. کل تسلسل ناتج تم الحصول عليه هو عينة تدريب. على سبيل المثال بالنظر 
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إلى النص الخام ل deep learning architectures‏ والرقم 5 بطول التسلسلء یمکننا بناء 
خمسة أمثلة تدريبية على النحو التالى: 
المخرجات | المدخلات 
مہہ deep_‏ 
learn earni‏ 


ing a ng ar 


rchit chite 
ectur cture 


فا بغر ال السا تاد 
نظرا لان نماذج الشركة العصبية لا تتلقی سوی البیانات الرقمية. بتم تمثیل تسلسل الادخال 
والإخراج لاأحرف بواسطة متجهات 5 .one-hot x»‏ نقوم بانشاء قاموس عن طریق تعیین 57 
É >‏ للمؤشرات من 0 إلى 56: 
index to char = dict((i, c) for i, c in enumerate(chars))‏ 


char. to index = dict((c, i) for i, c in enumerate(chars)) 
print(char. to. index) 


على سبيل المثال» يتم تحويل الحرف © إلى متجه بطول 57 بقيمة 1في الفهرس 30 وجميع قيمه 
الأخرى هي 0 (لقد رأیت كيف تم تشفير هذافي الفصل السابق). بمجرد أن يصبح جدول البحث 


import numpy as np 
seq_length = 100 
n_seq = int(n_chars / seq_length) 


من خلال ضبط طول التسلسل على 100 سيكون لدینا عينة seq‏ . بعد ذلك. نقوم بتهيئة 
مدخلات ومخرجات التدريب: 


np.zeros((n_seq, seg length, n vocab)) 
np.zeros((n seq, seg length, n vocab)) 


لاحظ أن طول التسلسل كما يلي: 

(رقم العينة» طول التسلسل, أبعاد الميزة) 
مثل هذا النموذج مطلوب. UM‏ نعتزم استخدام Keras‏ لتعليم نموذج RNIN‏ بعد ذلك تقوم 
بإنشاء كل m seq Jte‏ 


for i in range(n. seq): 
x sequence = raw text[i * seq length : (i + 1) * seq length] 
x. sequence, ohe = np.zeros((seq length, n. vocab)) 
for j in range(seq length): 
char = x. sequence[ j] 
index = char. to index[char] 
x sequence ohe[j [index] = 1. 
XLi] = x sequence ohe 
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y_sequence = raw_text[i * seq_length + 1 : (i + 1) * seq_length + 1] 
y_sequence_ohe = np.zeros((seq length, n. vocab)) 
for j in range(seq length): 
char = y. sequence[ j ] 
index = char. to index[char] 
y-sequence ohe[j]Lindex] = 1. 
Y[i] = y. sequence ohe 


إذاكنت ترغبفي 05( يمكنك رؤية المصفوفة بتنفيذ الخلايا أدناه: 
X. shape‏ 
)57 ,100 ,31962( 
Y. shape‏ 
)57 ,100 ,31962( 
حتى OYI‏ قمنا بإعداد مجموعة بيانات التدريب وحان الوقت OW‏ لبناء نموذج RNN‏ أدخل 
VI‏ جميع الوحدات الضرورية: 


from keras.models import Sequential 

from keras.layers.core import Dense, Activation, Dropout 
from keras.layers.recurrent import SimpleRNN 

from keras.layers.wrappers import TimeDistributed 

from keras import optimizers 

from tensorflow import keras 


الآنء نحدد المعاملات الفائقة بمافي ذلك حجم الدفعة وعدد الخلايا العصبية. وعدد الطبقات. 
واحتمال الحذف العشوائى. وعدد الدورات: 


batch_size = 0 


n_layer = 2 
hidden_units = 800 
n epoch = 300 
dropout - 0.3 


ثم نقوم بإنشاء الشب لشکة: 


model = Sequential() 
model.add(SimpleRNN(hidden units, activation='relu', input_shape=(None, 
n_vocab), return sequences-True)) 
model.add(Dropout(dropout)) 
for i in range(n layer - 1): 

model.add(SimpleRNN(hidden units, activation-'relu', 
return sequences-True)) 

model.add(Dropout(dropout)) 
model.add(TimeDistributed(Dense(n vocab))) 
model.add(Activation('softmax')) 


هناك بعض الأشياء التي يجب وضعهافي الاعتبار بشأن النموذج الذي أنشأناه: 
:return_sequences=True ®‏ يصبح ناتج طبقات العودة o‏ بنية كمتعدد 
لمتعدد تجعل ذلك ممکناً . كما أردنا أن يكون. خلاف ذلك. يصبح متعدد إلى واحد 
وسيكون العنصر الأخير هو الناتج. 
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:TimeDistributed "‏ نظرًا oY‏ إخراج طبقات العودة عبارة عن تسلسل » فان الطبقة 
التالية هی طبقة متصلة كاملة ولا تتلقى مدخلات متتالية. يتم استخدام 


TimeDistributed‏ لتجاوز هذا. 


optimizer = keras.optimizers.RMSprop(learning rate-0.001, rho=0.9, 
epsilon-1e-08, decay-0.0) 


بإضافة [UTE‏ إنتروبيا متعددة الطبقات qe» «" categorical crossentropy'‏ من بناء نموذجنا 
وأخيراً نقوم بتجميع النموذج: 

model.compile(loss- "categorical crossentropy", optimizer-optimizer) 
باستخدام الکود التالي يمكننا إلقاء نظرة على ملخص النموذج:‎ 


model .summary() 


Layer (type) Output Shape Param # 
“simple_rnn_4 (SimpleRNN) (None, None, 800) 686400 
dropout_4 (Dropout) (None, None, 800) 0 
simple_rnn_5 (SimpleRNN) (None, None, 800) 1280800 
dropout_5 (Dropout) (None, None, 800) 0 
2 EE (TimeDis (None, None, 57) 45657 
activation_2 (Activation) (None, None, 57) 0 

Total params: 2,012,857 
Trainable params: 2,012,857 


Non-trainable params: 0 

لدينا أكثر من 2 مليون معامل للتدريب. ولكن قبل بدء عملية التدريب الطویل من الممارسات 

الجيدة إعداد بعض عمليات الاسترجاع callback‏ لتتبع الإحصائيات والحالة الداخلية للنموذج 
أثناء التدريب. تشمل دوال callback‏ ما يلى: 


= نقطة التحقق (checkpoint)‏ النموذج c‏ والتي تخزن النموذج بعد كل فترة حتى نتمكن 
من تحميل أحدث نموذج محفوظ واستثناف التدريب من هناك في حالة التوقف غير 
المتوقع. 

* التوقف المبكر. والذي يوقف التدريب عندما لا تتحسن دالة الخطأ. 

* مراجعة نتائج توليد النص بشكل منتظم. نريد أن نرى مدى معقولية النص الناتج OY‏ 
عيوب التدريب ليست ملموسة بما فيه الكفاية. 

يتم تعريف أو تهيئة هذه الدوال على النحو التالي: 

from keras.callbacks import Callback, ModelCheckpoint, 8۵ 


filepath-"weights/weights layer. *d hidden. Xd. epoch. (epoch:03d]. loss (loss 
s - 0٤ 
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checkpoint = ModelCheckpoint(filepath, monitor='loss' 


, verbose=1, 
save best only-True, mode='min' ) 


بر ی الملف مع رقع الدورة ی تراقب 
Casi‏ اخطاء الاعتمادفي ن نفس الوقت لمعرفة ما إذا كان تقليل الاخطاء سيتوقف لمدة 50 فترة 
متتالية: 


early stop = EarlyStopping(monitor-'loss', min delta-0, patience-50, 
verbose-1, mode-'min') 


بعد ذلك. نحتاج إلى callback‏ لمراقبة الجودة. نکتب Vol‏ دالة مساعدة تولد نصا ch‏ طول Gi,‏ 
لنموذج RNN‏ الخاص بنا: 


def generate_text(model, gen_length, n_vocab, index_to_char): 


mun 
Generating text using the RNN model 
@param model: current RNN model 


@param gen_length: number of characters we want to generate 
@param n_vocab: number of unique characters 


@param index_to_char: index to character mapping 
Greturn: 


# Start with a randomly picked character 
index = np.random. randint(n_vocab) 
y_char = [index_to_char[index]] 
X = np.zeros((1, gen_length, n_vocab)) 
for i in range(gen_length): 

X[0, i, index] = 1. 


indices = np.argmax(model.predict(X[:, max(0, i - 99):i + 1, :D[0], 1) 
index - indices[-1] 


y_char. append(index_to_char[index]) 
return ('').join(y. char) 


تبدأ هذه الدالة بحرف تم اختياره عشوائيًا. يتنباً نموذج الادخال بعد ذلك JS‏ حرف من أحرف 
gen length-1‏ المتبقية FL‏ على الأحرف التي تم إنشاؤها مسبقاً والتي يصل طولها إلى 100 
(طول التسلسل). یمکننا OW‏ تحديد فئة callback‏ تقوم بإنشاء نص لكل فترة N‏ 


class ResultChecker(Callback): 
def __init__(self, model, N, gen_length): 
self.model = model 
self .N = 


self.gen length = gen length 


def on. epoch end(self, _epoch, logs={}): 
if epoch % self. = 0: 


result = penerate tenet oly mde self.gen length, n vocab, 
index to. char) 


print('NnMy War and Peace:\n' + result) 
الآن بعد أن أصبحت جميع المكونات جاهزة, نبداً بتدريب النموذج:‎ 


model.fit(X, ,لا‎ batch_size=batch_size, verbose=1, epochs=n_epoch, 


callbacks=[ResultChecker(model, 10, 200), checkpoint, early_stop]) 


يكتب المولد 200 b>‏ لكل 10 فترات. النتائج التالية خاصة بالفترات 1 و11 و51 1015 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


Epoch 1: 


Epoch 1/300 
8000/31962 [==== 
31962/31962 [=== 
My War and Peace: 

5 the count of the stord and the stord and the stord and the stord and the 
stord and the stord and the stord and the stord and the stord and the stord 
and the and the stord and the stord and the stord 

Epoch 00001: loss improved from inf to 2.19552, saving model to 
weights/weights_epoch_00@1_loss_2.19552.hdf5 


ETA: 51s - loss: 2.8891‏ - ل 
67s 2ms/step - loss: 2.1955‏ - ل 


Epoch 11: 

Epoch 11/300 

1800/31962... ھی‎ sas ca RET Wu Re ees RR VEN ل‎ - ETA: 1:26 - loss: 1.2321 
31962/31962 [==============================] - 665 2ms/step - loss: 1.2493 


My War and Peace: 

?" said the countess was a strange the same time the countess was already 
been and said that he was so strange to the countess was already been and 
the same time the countess was already been and said 

Epoch 00011: loss improved from 1.26144 to 1.24933, saving model to 
weights/weights  epoch 011. loss, 1.2493.hdf 5 


Epoch 51: 


Epoch 51/300 

31962/31962 [==============================) - 66s 2ms/step - loss: 1.1562 
My War and Peace: 

!!CDP!E.agrave!! to see him and the same thing is the same thing to him and 
the same thing the same thing is the same thing to him and the sam thing 
the same thing is the same thing to him and the same thing the sam 

Epoch 00051: loss did not improve from 1.14279 


Epoch 101: 


Epoch 101/300 

31962/31962 [==============================] - 67s 2ms/step - loss: 1.1736 
My War and Peace: 

= the same thing is to be a soldier in the same way to the soldiers and the 
same thing is the same to me to see him and the same thing is the same to 
me to see him and the same thing is the same to me 

Epoch 00101: loss did not improve from 1.11891 


توقف التدريبفي وقت مبكر من الدورة 203: 


Epoch 00203: loss did not improve from 1.10864 
Epoch 00203: early stopping 


يولد النموذج ges‏ التاليفي الفترة 2151 


which was a strange and serious expression of his face and shouting and said 
that the countess was standing beside him. "what a battle is a strange and 
serious and strange and so that the countess was 


الفصل gal JI‏ : الشبكة العصبية المتكررة 


um 


تقرأ "الحرب والسلام" الخاصة بنا جيدا إلى حد ما. ومع ذلك. قد تتساءل عما إذا كان بإمكاننا 
القيام بعمل أفضل من خلال تغيير المعاملاتنی نموذج flia RNN‏ الجواب نعم» لکن الأمر لا 
يستحق ذلك. لأن تدريب نموذج RNN‏ لحل المشكلات التي تتطلب تعلم الاعتماد على المدى 
الطويل ليس فعالا للغاية. تم تصميم الهياكل مثل GRU, LSTM‏ خصيصًا لحل هذه المشكلة. 
LSTM‏ 
من الناحية النظريةء يمكن ل RININS‏ البسيطة تعلم التبعيات طويلة المدی ولكنفي الممارسة 
العملية» بسبب مشكلة تلاشي التدرج. فإنها تقتصر على تعلم التبعيات قصيرة المدى. لمواجهة 
هذا القید. تم تقديم شبكة الذاكرة طويلة المدی (Long short term memory)‏ او 
(LSTM)‏ يمكن LSTM J‏ تكوين تبعيات طويلة المدى بسبب وجود خلية ذاكرة خاصةفي 
هيكلها. 

الفكرة الأساسية ل LSTM‏ هي خلية الحالة (cell state)‏ التي يمكن فيها ALS‏ المعلومات 
أو حذفها بشكل صريح. تظهر خلية الحالة هذه للوقت ٤‏ ك e,‏ في الشكل 1-5. 


ft = 00۷2۳ + Upx + bp) 

it = o(Wih; 4 + Uix,; + bj) 

a, = tanh(W,hy_1 + Ucxt + by) 
or = o(Woht-1 + Uoxt + bo) 

Ce = ft * رمه‎ F Üç * ag 

h, = o, * tanh (Cr) 


شكل 1-5. معمارية LSTM‏ 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


لا يمكن تغيير خلية حالة LSTM‏ إلا عن طريق بوابات معينة يتم من خلالها نقل المعلومات. 
يتكون LSTM‏ النموذجي من ثلاث بوابات: بوابة النسيان A)‏ وبوابة (D) SEY‏ وبوابة 
الإخراج )0(. 

البوابة الأولىني LSTM‏ هي بوابة النسیان. تقرر هذه البوابة ما إذا كنا نريد مسح خلية الحالة 
أم لا. يعتمد قرار البوابة المنسية على المخرجات السابقة Mpg‏ والمدخلات الحالية -Xp‏ تستخدم 
4 لتوليد إخراج بين صفر وواحد لكل عنصرفي خلية الحالة. يتم تنفيذ الضرب بين مخرج 
بوابة النسيان وخلية الحالة. تعني قيمة واحدفي مخرج بوابة النسيان أن معلومات العنصر مخزنة 
بالکامل‌ني خلية الحالة.في المقابل. الصفر يعنى النسيان الكامل للمعلومات‌في عنصر خلية الحالة. 
هذا یعنی أن LSTM‏ يمكنها إزالة cola fie‏ خی نات الصلة من متجه خلية الحالة الخاص بها. 
معادلة bia‏ الضیان كالتالي: 

ft = o(Wrhr-1 + Ux, + bp) 

تقرر البوابة التالية (بوابة الإدخال) إضافة معلومات جديدة إلى خلية الذاكرة. یتم ذلك في 
جزأين: تحديد القيم المراد تحديثها ثم إنشاء القيم المراد تحديثها. يتم استخدام المتجه ig‏ أولا 
لتحديد قيم المرشحين الجدد المحتملين لتضمينها في خلية الحالة. يحتوي متجه المرشح 
Cala,‏ على مصفوفة وزن خاصة به ويستخدم الحالة والمدخلات المخفية السابقة لتشكيل متجه 
بأبعاد مماثلة لخلية الحالة. لإنشاء هذا المتجه المرشح » يتم استخدام دالة tanh‏ كدالة غير خطية. 
تظهر هذه العملية فى المعادلات التالية: 

bi) ۱‏ + عدرلا + is = o(W;he-1‏ 
a; = tanh(W,hy_1 + Ucx, + bf)‏ 
تحدد Aly‏ النسيان LAS‏ تحديث خلية الحالةفي كل خطوة زمنية. يتم تحديث خلية الحالةفي 
خطوة زمنية عبر المعادلة التالية: 
عه * Ct = fe * Cra tip‏ 

البوابة الأخيرة (بوابة الإخراج) تقرر ما هو الاخراج. الناتج النهائي لخلية LSTM‏ هو الحالة 
المخفية Ay‏ بوابة الإخراج تأخذ وےع و xp‏ كمدخل. أولاً تستخدم sigmoid‏ لحساب المتجه 
بقيم بين صفر وواحد لتحديد قيم خلية الحالةفي الخطوة الزمنية. ثم قمنا بتعيين قيمة خلية الحالة 
إلى tanh iib‏ لمضاعفة قيمتها أخيرًا بمخرجات الطبقة السابقة «sigmoid‏ بحيث تتم مشاركة 
الأجزاء المرغوبةني الإخراج. يعني الإخراج 0 أن AES‏ الخلية لا تنتج أي معلومات. بینما يعني 
الإخراج 1 أن الذاكرة الكاملة لكتلة الخلية يتم نقلها إلى إخراج الخلية. تظهر المعادلات التالية 
هذا الاتجاه: 


Ort = o(Woht-1 + UoXt + bo) 


الفصل gal JI‏ : الشبكة العصبية المتكررة 


hr = o, * tanh (Cer) 


الآن كيف تحمينا LSTM‏ من تلاشي التدرج؟ لاحظ أنه إذا كانت بوابة النسيان 1 وكانت 
jl‏ الإدخال 0ء فسيتم نسخ حالة الخلية بالضبط خطوة بخطوة. فقط بوابة النسيان يمكنها محو 


ذاكرة الخلية GLS‏ نتيجة لذلك. يمكن أن تظل الذاكرة دون تغيير لفترة طويلة. 
عملیّاء يتم عرض LAS‏ فتح LSTM‏ بمرور الوقتفي الشكل آدناه: 


الثاكرة 4.2 


في البدايةء يتم إعطاء قيمة 4.2 للشبكة كمدخلات؛ تم ضبط بوابة الإدخال على 1ء لذلك يتم 
حفظ القيمة الكاملة. ثم بالنسبة للخطوتين التالیتین. يتم ضبط بوابة النسيان على 1. لذلك يتم 
تخزين جميع المعلومات أثناء هذه الخطوات ولا تتم إضافة أي معلومات جديدةء لأن البوابات 


مضبوطة على 0. أخيراء یتم ضبط بوابة الإخراج على 1 ويتم إنشاء 4.2 وتبقى دون تغيير. 


توليد نص باستخدام LSTM‏ 


فی مولد النص المستند إلى LSTM‏ قمنا بزيادة طول التسلسل إلى 160 b>‏ مقارنة JEJL‏ 
السابق. ومن ثم قمنا بإعادة بناء مجموعات التدريب Y 5 X‏ بالقيمة الجديدة SEQ LENGTH‏ 


:= 160 


seq_length = 0 
n_seq = int(n_chars / seq_length) 


X 
Y 


np.zeros((n seq, seq length, n vocab)) 
np.zeros((n seq, seq length, n vocab)) 


for i in range(n, seq): 


x sequence = raw text[i * seq length : (i + 1) * seq length] 
x. sequence. ohe = np.zeros((seq length, n. vocab)) 
for j in range(seq length): 
char = x_sequence[j] 
index = char. to index[char] 
x sequence ohe[j ]Lindex] = 1. 
XLi] = x sequence ohe 
y_sequence = raw text[i * seg length + 1 : (i + 1) * seq length + 1] 
y_sequence_ohe = np.zeros((seq. length, n. vocab)) 
for j in range(seq . length): 
char = y. sequence[ j] 
index - char. to index[char] 
y_sequence_ohe[j ]Lindex] = 1. 


التعلم العمیق: من الأساسيات حتی بناء شبكة عصبية عميقة بلغة البايثون 


y_sequence_ohe‏ = [1]لا 
مقارنةً بنموذج RNN‏ السابق. نستخدم نموذجًا بطبقتين متكررتين تحتويان على 800 خلية 
عصبية وحذف عشوائي باحتمال 0.4: 


from keras.layers.recurrent import LSTM 
batch_size = 100 


n_layer = 2 
hidden_units = 800 
n_epoch= 300 


dropout = 4 


model = Sequential() 
model.add(LSTM(hidden units, input_shape=(None, n_vocab), 
return_sequences=True) ) 
model .add(Dropout (dropout) ( 
for i in range(n_layer - 1): 
model.add(LSTM(hidden units, return_sequences=True) ) 
model .add(Dropout (dropout ) ) 
model .add(TimeDistributed(Dense(n_vocab) ز‎ ( 
model.add(Activation('softmax')) 


optimizer = keras.optimizers.RMSprop(learning rate-0.001, rho=0.9, 
epsilon-1e-08, decay-0.0) 


model.compile(loss- "categorical crossentropy", optimizer-optimizer) 
الذي قمنا ببناته للتو:‎ LSTM نلخص نموذج‎ be 


model.summary() 


activation 1 (Activation) (None, None, 57) 0 


Total params: 7,914,457 
Trainable params: 7,914,457 
Non-trainable params: 0 


يوجد حوالي 8 ملايين معامل للتدریب. وهو ما يقرب من أربعة أضعاف نموذج RNN‏ السابق. 
لنبدأ التدريب: 


model.fit(X, ,لا‎ batch_size=batch_size, verbose=1, epochs=n_epoch, 
callbacks=[ResultChecker(model, 10, 200), checkpoint, early_stop]) 


الفصل gal JI‏ : الشبكة العصبية المتكررة 


يكتب المولد Cai‏ مكونًا من 500 حرف لكل 10 دورات. النتائج التالية خاصة بالدورات 151 


و201 و251: 
Epoch 151:‏ 

Epoch 151/300 
19976/19976 السس سس سس‎ - 250s 12ms/step = loss: 
0.7300 


My War and Peace: 

ing to the countess. "i have nothing to do with him and i have nothing to 
do with the general," said prince andrew. 

"i am so sorry for the princess, i am so since he will not be able to say 
anything. i saw him long ago. i am so sincerely that i am not to blame for 
it. i am sure that something is so much talk about the emperor alexander's 
personal attention." 

"why do you say that?" and she recognized in his son's presence. 

"well, and how is she?" asked pierre. 

"the prince is very good to make 


Epoch 00151: loss improved from 0.73175 to 0.73003, saving model to 
weights/weights  epoch. 151. loss, 0.7300. hdf 5 


Epoch 201: 


Epoch 201/300 

19976/19976 | - 248s 12ms/step - loss: 
0.6794 

My War and Peace: 

was all the same to him. he received a story proved that the count had not 
yet seen the countess and the other and asked to be able to start a tender 
man than the world. she was not a family affair and was at the same time as 
in the same way. a few minutes later the count had been at home with his 
smile and said: 

"i am so glad! well, what does that mean? you will see that you are always 
the same." 

"you know i have not come to the conclusion that i should like to 

send my private result. the prin 


Epoch 00201: loss improved from 0.68000 to 0.67937, saving model to 
weights/weights. epoch. 151. loss. 6 5 


Epoch 251: 


Epoch 251/300 

19976/19976 ج5 ےچ ہت سس جا‎ < [ - 249s 12ms/step - loss: 
0.6369 

My War and Peace: 

nd the countess was sitting in a single look on 

her face. 

"why should you be ashamed?" 

"why do you say that?" said princess mary. "why didn't you say a word of 
this?" said prince andrew with a smile. 

"you would not like that for my sake, prince vasili's son, have you seen 
the rest of the two?" 

"well, i am suffering," replied the princess with a sigh. "well, what a 
delightful norse?" he shouted. 

the convoy and driving away the flames of the battalions of the first 
day of the orthodox russian 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


Epoch 00251: loss improved from 0.63715 to 0.63689, saving model to 
weights/weights. epoch. 251. loss. 0.6368.hdf 5 


آخیرّا . في الدورة 300 ۰ توقف التدريب عند الخطأ 0.6001 


بفضل 2 بنية Ad a « LSTM‏ کا قصة أكثر واقعية وإثارة للاهتمام عن "الحرب 
والسلام. بالإضافة إلى ذلك » لا تقتصر شبكات RNN LSTM‏ على تولید الأحرف للنص. 


يمكنهم التعلم من أي بيانات نصية » مثل HTML‏ و LaTex‏ وما إلى ذلك. 
تصنيف النص متعدد العلامات باستخدام LSTM‏ 


في هذا القسم. سنشرح كيفية إنشاء نموذج تصنيف نص بمخرجات متعددة. سنقوم بتطویر 
نموذج تصنيف النص الذي يحلل ELS‏ نصيًا ويتنباً بالعديد من العلامات المتعلقة بالتعليق. 

تحتوي مجموعة البيانات المستخدمةنی التدریب على ست علامات oe‏ لكل تعليق: «toxic‏ 
identity hate; insult «threat «obscene «severe toxic‏ يمكن ud‏ ينتمي التعليق إلى كل هذه 
الفثات أو الفغات الفرعية لهذه الفتات. مما يجعله مسئلة تصنيف متعددة العلامات. يمكنك 
تنزيل مجموعة البيانات هذه من موقع ويب Kaggle!‏ هذا.ني هذا المثال. سنستخدم ملف 
"train.csv"‏ فقط. 

Wi‏ ندخل المكتبات المطلوبة ونحمّل مجموعة البيانات. الكود التالى يدخل المکتبات 
المطلوبة: l‏ 


from numpy import array 

from keras.preprocessing.text import one_hot 

from keras.preprocessing.sequence import pad_sequences 
from keras.models import Sequential 

from keras.layers.core import Activation, Dropout, Dense 
from keras.layers import Flatten, LSTM 

from keras.layers import GlobalMaxPooling1D 

from keras.models import Model 

from keras.layers.embeddings import Embedding 

from sklearn.model_selection import train_test_split 
from keras.preprocessing.text import Tokenizer 

from keras.layers import Input 

from keras.layers.merge import Concatenate 

import pandas as pd 

import numpy as np 

import re 
import matplotlib.pyplot as plt 


OYI‏ قم بتحميل مجموعة البيانات: 


toxic comments = pd.read_csv("train.csv") 


print(toxic_comments. shape) 


(159571, 8) 


1 https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/overview 
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كما یتضح. تحتوي مجموعة البيانات على 159.571 سجلا و8 أعمدة. 
باستخدام الأمر التالي یمکنك رژية بعض الأمثلة على بیانات الاخراج: 


toxic_comments.head() 


id comment_text toxic severe_toxic obscene threat insult identity_hate 
Explanation\nWhy the 
0 0000997932d777bf edits made under my 0 0 0 0 0 0 
usern... 


D'aww! He matches this 
1 000103f0d9cfb60f background colour I'm ۵ 0 0 0 0 0 
Si. 


Hey man, I'm really not 


2 000113f07ec002fd trying to edit war. 0 0 0 0 0 0 
0. 
"\nMore\nI can't make 


3 0001b41b1c6bb37e any real suggestions on 0 0 0 0 0 0 


You, sir, are my ۰ 


0001d958c54c6e35 Any chance you 0 0 0 0 0 0‏ 4 
remember...‏ 
في الخطوة التالية» نحذف جميع السجلات التي يحتوي کل صف فيها على قيمة فارغة أو سلسلة 


فارغة. 


filter = toxic comments["comment text"] !- "" 
toxic comments - toxic, comments[filter] 
toxic comments = toxic. comments.dropna() 


يحتوي العمود comment text‏ على تعليقات نصية. Les‏ نطبع Gus‏ ثم نرى علامات التعليق: 


print(toxic. comments["comment text"][168]) 


You should be fired, you're a moronic wimp who is too lazy to do research. 
It makes me sick that people like you exist in this world. 


الآن مع الأمر «QUII‏ دعنا نلقي نظرة على العلامات المرتبطة بهذا التعليق: 


print("Toxic:" + str(toxic_comments["toxic"][168])) 

print("Severe toxic:" + str(toxic_comments["severe_toxic"][168])) 
print("Obscene:" + str(toxic. comments["obscene" ][168])) 
print("Threat:" + str(toxic, comnents["threat" ][168])) 
print("Insult:" + str(toxic  comments["insult"][168])) 
print("Identity hate:" + str(toxic, comments["identity hate"][168])) 


Toxic: 

Severe toxic:0 
Obscene:0 
Threat:0 
Insult:1 
Identity  hate:0 


الان دعنا نوضح عدد التعليقات لكل علامة: 
toxic comments labels = toxic comments[["toxic", "severe toxic", "obscene",‏ 
"threat", "insult", "identity hate"]]‏ 
fig size - plt.rcParams["figure.figsize"]‏ 
fig size[0] - 10‏ 
fig size[1] = 8‏ 


plt.rcParams["figure.figsize"] - fig size 
toxic comments labels.sum(axis-0).plot.bar() 
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يمكنك أن ترى أن الفئة "toxic"‏ هي الأكثر شيوعًا. لقد نجحنانی تحليل مجموعة البيانات 
الخاصة بنا۔ فيما یلی» سننشئ نموذج مصنف متعدد العالامات لمجموعة البيانات هذه. 
بشكل عام. هناك طريقتان لإنشاء نموذج مصنف متعدد العلامات: استخدام طبقة إخراج 
متصلة بالکامل واستخدام طبقات إخراج متعددة متصلة بالكامل.في الطريقة الاولی يمكننا 
استخدام طبقة متصلة بالكامل مع ست مخرجات مع دالة التفعيل sigmoid‏ ووظيفة خطأ 
الانتروبيا المتقاطع الثنائي. تمثل کل خلية عصبيةفي الطبقة المتصلة بالكامل ناتج إحدى العلامات 
الست. كما نعل ترجع دالة التفعيل sigmoid‏ قيمة بين 0 و1 لكل خلية عصبية. إذا كانت قيمة 
خرج کل خلية عصبية أكبر من ۰0.5 فمن المفترض أن التعليق ينتمي إلى الفثة التي يتم تمثيل 
الخلايا العصبية الخاصة بها. 
في الطريقة الثانية» يمكن إنشاء طبقة إخراج متصلة بالكامل لكل علامة.في هذا المثال تحتاج 
إلى إنشاء 6 طبقات متصلة بالكامل عند الاخراج. كل طبقة لها sigmoid Jl»‏ الخاصة بها. 
سنستخدم الطريقة الأولى فقط لمجموعة البیانات هذه وننشوع نموذج مصنف نص متعدد 
العلامات بطبقة إخراج واحدة. ولا نقوم بإنشاء دالة لتنظيف النص: 
def preprocess_text(sen):‏ 
Remove punctuations and numbers‏ # 
sentence = re.sub('[^a-zA-Z]', ' ', sen)‏ 
Single character removal‏ # 
sentence = re.sub(r"Ns*[a-zA-Z]Ns*", ' ', sentence)‏ 
Removing multiple spaces‏ # 


sentence = re.sub(r'Ns*', ' ', sentence) 
return sentence 


الخطوة التالية نقوم بإنشاء مجموعة المدخلات والمخرجات الخاصة بنا. إدخال التعليق هو 
العمود -comment_text‏ نقوم بتخزين جميع التعليقاتفي المتغیر UX‏ العلامات أو المخرجات 
مخزنة بالفعل نی .toxic comments labels‏ نستخدم هذه القيم لتخزين المخرجاتفي المتغير 
٢‏ الکود التالي يوضح هذا: 
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sentences = list(toxic_comments["comment_text"]) 
for sen in sentences: 
X.append(preprocess. text(sen)) 
y = toxic comments, labels.values 
علامات الإخراج الخاصة بنا‎ oY cone-hot لا نحتاج إلى إجراء ترميز‎ coda في مجموعة البيانات‎ 
نقسم بیاناتنا إلى‎ AW! الخطوة‎ Geone-hot قد تم تحويلها بالفعل إلى متجهات ترميز‎ 
مجموعات بيانات تدريب واختبار:‎ 


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, 
random_state=42) 


بعد ذلك. نحتاج إلى تحويل مدخلاتنا إلى متجهات عددية. لذا قبل أن ننتقل إلى هذا المثالء 
دعنا نتعلم المزيد عن تضمين الكلمات .(word embedding)‏ لا تستطيع خوارزميات التعلم 
العميق فهم البيانات النصية الأولية» لذلك يجب تحويل النص حتى تتمكن الشبكة من فهمه 
ومعالجته. إن تضمين الكلمات هو طريقة لتمثيل الكلمات التى تهدف إلى التمثيل المعنوي 
للكلماتفي شكل متجهات حقیقیة حيث يتم تمثيل الكلمات 5 المعاني والسياقات المتشابهة 
بواسطة متجهات ممائلة. هذه المتجهات العددية أصغر من الأساليب الاحصائيةني معالجة اللغة 
الطبيعية لتحويل الكلمات إلى أرقام. أيضًاء هذه المتجهات العددية. إذا كانت مدربة جیدا. لديها 
القدرة على إظهار الروابط الدلالية والنحوية بين الكلمات. يعد تضمين الكلمات الحجر الاساس 
للعديد من وظائف معالجة اللغة الطبيعية التي تستخدم التعلم العميق. يمكن تحقيق تضمين 
الکلمات للنصوص من طريقتين مختلفتين.ني الطريقة الأولى؛ يتم تعليمهم‌في وقت واحد مع 
المهمة الرئيسية أثناء تدريب الشبكة.في هذه الطريقة. يتم آولاً إنشاء القيم الرقمية للمتجهات 
بشكل عشوائي ثم أثناء التدريب يتم تحديث هذه القيم من خلال التحسين مثل طبقات الشبكة 
الأخرى. الطريقة الثانية هي من خلال التدريب باستخدام خوارزميات خاصة مثل fasttext‏ 
GloVes‏ على مجموعة كبيرة من البيانات النصية واستخدام الأوزان التي تم الحصول عليها من 
هذه الخوارزميات. 
الآن دعنا نحول مدخلات النص إلى متجهات مضمنة: 

tokenizer = Tokenizer (num_words=5000) 

tokenizer.fit on texts(X train) 

X train = tokenizer.texts, to sequences(X train) 

X test = tokenizer.texts, to sequences(X test) 

vocab size = len(tokenizer.word index) + 1 

maxlen - 200 


X train = pad sequences(X train, padding-'post', maxlen=maxlen) 
X test = pad sequences(X test, padding-'post', maxlen=maxlen) 


سنستخدم مضمن الكلمات GloVe‏ لتحويل مدخلات النص إلى نظيراتها الرقمية. أدخل الكود 
أدناه لتنزيله: 


!wget http://nlp.stanford.edu/data/glove.6B.zip 
!unzip glovex.zip 


لاستخدام «GloVe‏ نقوم بما يلي: 
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from numpy import array 
from numpy import asarray 
from numpy import zeros 


embeddings_dictionary = dict() 
glove file = open('glove.6B.100d.txt', encoding="utf8") 


for line in glove file: 
records - line.split() 
word = records[@] 
vector dimensions = asarray(records[1:], dtype-'float32') 
embeddings dictionary[word] = vector, dimensions 
glove file.close() 


embedding matrix - zeros((vocab size, 100)) 
for word, index in tokenizer.word_index.items(): 
embedding vector - embeddings. dictionary.get(word) 
if embedding vector is not None: 
embedding matrix[index] = embedding. vector 


ثم نقوم بإنشاء نموذجنا بالكود التالي. سيحتوي نموذجنا على طبقة إدخال . وطبقة تضمين › 
وطبقة LSTM‏ بها 128 خلية imas‏ وطبقة إخراج بها 6 خلايا عصبية . o3‏ لدینا 6 علامات في 


الإخراج. 


deep. inputs = Input(shape-(maxlen,)) 

embedding layer - Embedding(vocab size, 100, weights-[embedding matrix], 
trainable-False)(deep. inputs) 

LSTM Layer. 1 = LSTM(128) (embedding. layer) 

dense layer. 1 = Dense(6, activation-'sigmoid')(LSTM Layer. 1) 

model - Model(inputs-deep. inputs, outputs-dense layer. 1) 


model.compile(loss-'binary. crossentropy', optimizer-'adam', metrics-['acc']) 
دعونا نطبع ملخص النموذج:‎ 


print(model. summary )(( 
Model: "model" 


Layer (type) Output Shape Param # 
“input_1 (InputLayer)  [(None, 2000] ۳ @ 
embedding (Embedding) (None, 200, 100) 14824300 
lstm (LSTM) (None, 128) 117248 

dense (Dense) (None, 6) 774 


Total params: 14,942,322 
Trainable params: 118,022 
Non-trainable params: 14,824,300 


يمكنك تصوير بُنية الشبكة العصبية الخاصة بك باستخدام الكود التالي: 
from keras.utils.vis_utils import plot_model‏ 


plot_model(model, to_file='model_plot4a.png', show_shapes=True, 
show_layer_names=True) 
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يمكنك أن ترى من الشكل أعلاه أن طبقة الإخراج تتكون من طبقة واحدة متصلة بالكامل بها 6 
خلايا عصبية. الآن دعنا ندرب النموذج: 


history = model.fit(X_train, y_train, batch_size=128, epochs=5, verbose=1, 
validation, split-0.2) 


Epoch 1/5 
798/798 [==============================) - 20s 17ms/step - loss: 0.1193 - acc: 0.9684 - val loss: 
0.0739 - val acc: 0.9941 
Epoch 2/5 
798/798 سس سس سح سس سس سس‎ - 1 
0.0599 - val_acc: 3 
Epoch 3/5 
798/798 ۲ 
0.0573 - 
Epoch 4/5 
798/798 [==============================) - 13s 17ms/step - loss: 0.0548 - acc: 0.9939 - val loss: 
0.0566 - val acc: 3 
Epoch 5/5 
798/798 [---- 
0.0542 - val acc: 0.9942 


© 


w 


s 17ms/step - loss: 0.0643 - acc: 0.9927 - val_loss: 


- 13s 17ms/step - loss: 0.0572 - acc: 0.9938 - val_loss: 


w 


- 14s 17ms/step - loss: 0.0523 - acc: 0.9940 - val_loss: 


لنقم الآن بتقییم النموذج في مجموعة الاختبار: 


score = model.evaluate(X_test, y_test, verbose=1) 
print("Test Score:", score[0]) 
print("Test Accuracy:", score[1]) 


998/998 [==============================) - 6s 6ms/step - loss: 0.0529 - acc: 0.9938 
Test Score: 0.05285229906439781 
Test Accuracy: 0.9937959909439087 


لقد حقق النموذج دقة تصل إلى 99/ في مجموعة الاختبار وهو أمر ممتاز. أخيرًا ء قمنا برسم 
قيم الخطأ والدقة لمجموعات التدريب والاختبار لمعرفة ما إذا كان النموذج قد أدى إلى 
-overfitting‏ 


import matplotlib.pyplot as plt 


plt.plot(history.history['acc']) 
plt.plot(history.history['val acc']) 


plt.title('model accuracy') 
plt.ylabel('accuracy') 

plt.xlabel('epoch') 
plt.legend(['train','test'], loc-'upper left') 
plt.show() 
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plt.plot(history.history['loss']) 
plt.plot(history.history['val loss']) 


plt.title('model loss') 

plt.ylabel('loss') 

plt.xlabel('epoch') 
plt.legend(['train','test'], loc-'upper left') 
plt.show() 


model loss 


ni tan 
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كما ترون في الصور أعلاه « لم يؤدي النموذج إلى -overfitting‏ 
تحليل العاطفة مع LSTM‏ 


مع ظهور أدوات الويب 2 وظهور وسائل التواصل الاجتماعي. أصبحت حياة المجتمعات البشرية 
اليوم متشابكة بشدة. وقد أدى ذلك إلى إنتاج كميات هائلة من البيانات من قبل مستخدمي هذه 
الوسائط. تعد البيانات النصية من أكثر البيانات استخدامًا والتي يمكن استخدامها للحصول على 
معلومات مهمة حول مواضيع مختلفة. تؤدي وسائل التواصل الاجتماعي بأشكالها المختلفة مثل 
المنتديات والمدونات ومواقع التعليقات وما إلى ذلك إلى إنتاج كميات كبيرة من البيانات بشكل 
يومي. هذه البياناتفي شكل تعليقات وانتقادات ووجهات نظر حول الخدمات والشركات 
رالنظرات والأحداث والأشخاص والقضايا والموضوعات. التعليقات التى يقدمها 
المستخدمون على الشبكات الاجتماعية مهمة جد وعملية.في متجر على «cà yl‏ یمکن أن 
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تعکس الآراء ووجهات النظر المختلفة حول منتج ما مستوى رضا العملاء وجودته. والتي يمكن 
أن تکون دلیلا رائعًا للمشترين الآخرين. ليس من السهل تصنيف وتنظيم هذا الكم الھائل من 
الآراء يدويًا حول موضوع معين. لذلك. أدت الحاجة إلى نظام آلي لجمع الآراء إلى ظهور مجال 
بحث جديد يسمى تحليل المشاعر .(Sentiment analysis)‏ تحليل المشاعر هو مجال دراسي 
هدفه الرئيسي تحديد واستخراج وتصنيف المشاعر والآراء والمواقف والأفکار والأحكام والنقد 
ووجهات النظر تجاه الکائنات والمنظمات والأحداث وما إلى ذلك دون تفاعل بشريفي شكل 
إيجابي أو سلبي أو فتات محايدة. 

النهجان المختلفان اللذان يستخدمهما الباحثون لتصنيف المشاعر في النص هما نهجان 
يعتمدان على المفردات و تعلم الآلة. يمكن اعتبار نهج آخر مزيجًا من الاثنين. يركز النهج القائم 
على المفردات على استخراج الكلمات أو العبارات التي يمكن أن توجه عملية التصنيف في اتجاه 
دلالي محدد. كل كلمة لها عبء دلالي محدد يتم استخراجه من خلال مسرد الكلمات ذات 
الشحنات العاطفية الإيجابية والسلبية التي تم تسجيلها بالفعل. عن طريق إضافة نقاط الحمل 
العاطفي للكلمات أو حساب عدد الكلمات ذات الشحنات الموجبة والسالبة ء يتم الحصول على 
القطبية العامة للجملة. يمكن تدريس نهج التعلم الالي واستخدامه بعدة طرق لتحليل المشاعر. 
في وضع التعلم الخاضع للإشراف :یتم الإشراف على نموذج التدريب بمجموعة بيانات تدريب 
مصنفة مسبقاً ليكون قادرًا على التعلم والتصرف بشكل مشابه للبيانات المدربة في مواجهة 
البيانات غير المرثية. 

في السنوات الأخيرة ۰ أثبت الباحثون على نطاق واسع أن نماذج التمثيل القائم على التعلم 
العميق أكثر فاعلية في القضايا المتعلقة بتصنيف المشاعر. يرجع اعتماد مناهج التعلم العميق 
في تحليل المشاعر إلى القدرة العالية جد لنماذج التعلم العميق على تعلم الميزات SU‏ » والتي 
يمكن أن تحقق Bo‏ وأداء أفضل. في العديد من مجالات معالجة اللغة الطبيعية . أدى استخدام 
التعلم العميق إلى نتائج تتجاوز تلك المستخدمة سابقًا بواسطة التعلم الالي والأساليب 
الإحصائية. 

الآن بعد أن أصبحت على دراية بتحليل المشاعر . فلنقم ببناء نموذج لتحليل المشاعر في 
مجال مراجعة الأفلام بمساعدة شبكة -LSTM‏ لهذا التنفيذ . نستخدم مجموعة بيانات IMDB‏ 
تتمثل ميزة مجموعة البيانات هذه فى أنها مضمنة بالفعل فی مكتبة مجموعة بيانات Keras‏ 

B نقوم بتحميل مجموعة ان ضر ارد‎ Vil 


from keras.datasets import imdb 


top_words = 5000 
(X train, y train), (X test, y test) = imdb.load  data(num words-top. words) 


يقسم الكود أعلاه مجموعة البيانات إلى مجموعتين تدريب واختبار في نفس الوقت الذي يتم 
فيه تحميل أفضل 5000 كلمة لكل مراجعة. دعنا نلقى نظرة على مجموعة البيانات: 


X_train 
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array([list([1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65, 458, 4468, 66, 3941, 4, 173, 36, 256, 5, 
25, 100, 43, 838, 112, 50, 670, 22665, 9, 35, 480, 284, 5, 150, 4, 172, 112, 167, 21631, 336, 385, 
39, 4, 172, 4536, 1111, 17, 546, 38, 13, 447, 4, 192, 50, 16, 6, 147, 2025, 19, 14, 22, 4, 1920, 
4613, 469, 4, 22, 71, 87, 12, 16, 43, 530, 38, 76, 15, 13, 1247, 4, 22, 17, 515, 17, 12, 16, 626, 
18, 19193, 5, 62, 386, 12, 8, 316, 8, 106, 5, 4, 2223, 5244, 16, 480, 66, 3785, 33, 4, 130, 12, 
16, 38, 619, 5, 25, 124, 51, 36, 135, 48, 25, 1415, 33, 6, 22, 12, 215, 28, 77, 52, 5, 14, 407, 
16, 82, 10311, 8, 4, 107, 117, 5952, 15, 256, 4, 31050, 7, 3766, 5, 723, 36, 71, 43, 530, 476, 26, 
400, 317, 46, 7, 4, 12118, 1029, 13, 104, 88, 4, 381, 15, 297, 98, 32, 2071, 56, 26, 141, 6, 194, 
7486, 18, 4, 226, 22, 21, 134, 476, 26, 480, 5, 144, 30, 5535, 18, 51, 36, 28, 224, 92, 25, 104, 
4, 226, 65, 16, 38, 1334, 88, 12, 16, 283, 5, 16, 4472, 113, 103, 32, 15, 16, 5345, 19, 178, 32]) 
list([1, 194, 1153, 194, 8255, 78, 228, 5, 6, 1463, 4369, 5012, 134, 26, 4, 715, 8, 118, 


list([1, 1446, 7079, 69, 72, 3305, 13, 610, 930, 8, 12, 582, 23, 5, 16, 484, 685, 54, 349, 
11, 4120, 2959, 45, 58, 1466, 13, 197, 12, 16, 43, 23, 21469, 5, 62, 30, 145, 402, 11, 4131, 51, 
575, 32, 61, 369, 71, 66, 770, 12, 1054, 75, 100, 2198, 8, 4, 105, 37, 69, 147, 712, 75, 3543, 44, 
257, 390, 5, 69, 263, 514, 105, 50, 286, 1814, 23, 4, 123, 13, 161, 40, 5, 421, 4, 116, 16, 897, 
13, 40691, 40, 319, 5872, 112, 6700, 11, 4803, 121, 25, 70, 3468, 4, 719, 3798, 13, 18, 31, 62, 
40, 8, 7200, 4, 29455, 7, 14, 123, 5, 942, 25, 8, 721, 12, 145, 5, 202, 12, 160, 580, 202, 12, 6, 
52, 58, 11418, 92, 401, 728, 12, 39, 14, 251, 8, 15, 251, 5, 21213, 12, 38, 84, 80, 124, 12, 9, 
23], 

list([1, 17, 6, 194, 337, 7, 4, 204, 22, 45, 254, 8, 106, 14, 123, 4, 12815, 270, 14437, 5, 
16923, 12255, 732, 2098, 101, 405, 39, 14, 1034, 4, 1310, 9, 115, 50, 305, 12, 47, 4, 168, 5, 235, 
7, 38, 111, 699, 102, 7, 4, 4039, 9245, 9, 24, 6, 78, 1099, 17, 2345, 16553, 21, 27, 9685, 6139, 
5, 29043, 1603, 92, 1183, 4, 1310, 7, 4, 204, 42, 97, 90, 35, 221, 109, 29, 127, 27, 118, 8, 97, 
12, 157, 21, 6789, 85010, 9, 6, 66, 78, 1099, 4, 631, 1191, 5, 2642, 272, 191, 1070, 6, 7585, 8, 
2197, 70907, 10755, 544, 5, 383, 1271, 848, 1468, 12183, 497, 16876, 8, 1597, 8778, 19280, 21, 60, 
27, 239, 9, 43, 8368, 209, 405, 10, 10, 12, 764, 40, 4, 248, 20, 12, 16, 5, 174, 1791, 72, 7, 51, 
6, 1739, 22, 4, 204, 131, 91, 

dtype=object) 


إذا نظرت إلى البيانات أعلاه . ستلاحظ أن البيانات قد تمت معالجتها بالفعل. جميع الكلمات 
مكتوبة بأعداد صحيحة . وتمثل الأعداد الصحيحة الكلمات مرتبة حسب عدد تكرارها. على 
سبيل المثال . تمثل 4 الكلمة الرابعة الأكثر استخدامًا > و 5 تمثل الكلمة الخامسة الأكثر 
استخدامًا . وهكذا. العدد الصحيح 1 محجوز لعلامة البداية ء والعدد الصحيح 2 محجوز لكلمة 
غير معروفة . و 0 للحشو. إذا كنت تريد إلقاء نظرة على المراجعات بنفسك ومعرفة ما كتبه 
الأشخاص . يمكنك عکس هذا الاتجاه أيضا: 


word_index = imdb.get_word_index() # get {word : index} 


index_word = {v : k for k,v in word_index.items()} # get {index : word} 
index = 1 
print(" ".join(Lindex wordLidx] for idx in x_train[index]])) 


print("positve" if y train[index]--1 else "negetive") 
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negetive 


نظرًا لاختلاف المراجعات من حيث الطول . فإننا نريد تقسيم كل مراجعة إلى أول 500 كلمة. 
نحتاج إلى عينات نصية بنفس الطول حتى نتمكن من إدخالها في شبكتنا العصبية. إذا كانت 
المراجعات آقصر من 500 كلمة . نضيفها بصفر. 
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يعد GEL Keras‏ لهذا OY.‏ يوفر مجموعة من إجراءات المعالجة المسبقة التى يمكن إجراؤها 
بسهولة بالنسية 1 
word_index = imdb.get_word_index() # get {word : index}‏ 
index_word = {v : k for k,v in word_index.items()} # get {index : word}‏ 
index = 1‏ 


print(" ".join(Lindex wordLidx] for idx in x_train[index]])) 
print("positve" if y train[index]--1 else "negetive") 


لفهم أفضل . دعنا نختار عينة من البیانات بشكل عشوائي ونرى ما فعله الكود أعلاه: 
X_train[125]‏ 


array(L 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 

0, 0, 0, 0, 0, 0, 0, 0, 0, 

0, 0, 0, 0, 0, 0, 0, 0, 0, 

0, 0, 0, 0, 0, 0, 0, 0, 0, 

0, 0, 0, 0, 0, 0, 0, 0, 0, 

0, 0, 0, 0, 0, 0, 0, T5 11, 

6, 58, 54, 4, 14537, 5, 6495, 4, 2351, 
1630, 71, 13202, 23, 26, 20094, 40865, 34, 35, 
9454, 1680, 8, 6681, 692, 39, 94, 205, 6177, 
712, 121, 4, 18147, 7037, 406, 2657, 5, 2189, 
61778, 26, 23906, 11420, 6, 708, 44, 4, 1110, 
656, 4667, 206, 15, 230, 13781, 15; T, 4, 
4847, 36, 26, 54759, 238, 306, 2316, 190, 48, 
25, 181, 8, 67, 6, 22; 44, 15, 353, 
1659, 84675, 3048, 4, 9818, 305, 88, 11493, 9 
31, 7, 4, 91, 12789, 53410, 3106, 126, 93, 
40, 670, 8759, 41931, 6, 6951, 4, 167, 47, 
623, 23, 6, 875, 29, 186, 340, 4447, T; 
5, 44141, 27, 5485, 23, 220, 175, 2122, 10, 
10, 27, 4847, 26, 6, 5261, 2631, 604, 7 


,2222 ,2370 ,4 ,11 ,362 ,1755 ,35 ,40 ,9248 
,48583 ,82401 ,609 ,39 ,2489 ,23052 ,4 ,7 ,56 
,33 ,4486 ,37 ,3801 ,4198 ,707 ,655 ,3440 ,6 
,8 ,181 ,36 ,48 ,17 ,471 ,114 ,2631 ,175 
,128 ,117 ,6 ,2396 ,5963 ,3408 ,4 ,1059 ,30 
,10 ,14524 ,3826 ,20663 ,11 ,4218 ,131 ,26 ,21 
,22 ,1393 ,6 ,97 ,8 ,614 ,9 ,12 ,10 
,6 ,9 ,14 ,21 ,5801 ,21800 ,84 ,995 ,44 
,37 4ہ ,34 رھ ,84 ,995 ,44 ,22 ,4953 
,180 ,662 ,26 ,37 ,11076 ,507 ,104 
,31537 ,36011 ,39022 ,8 ,3 ,71 ,882 ,11 ,5075 
,7863 ,5 ,11521 ,1806 ,31800 ,1240 ,19 ,48583 ,5 
,4 ,2988 ,8 ,30 ,165 ,62 ,959 ,4 ,28281 
,10 ,12 ,2358 ,24 ,22 ,4 ,7 ,1500 ,2772 
,27 ,19 ,245 ,188 ,28 ,43 ,238 ,22993 ,10 
,21 ,615 ,98 ,562 ,29 ,48 ,687 ,5 ,105 
,62 ,139 ,548 ,4 ,2797 ,38 ,9 ,8500 ,27 
,4 ,7 ,1205 ,4 ,137 ,707 ,14053 ,6 ,9343 
,5 ,410 ,6556 ,4 ,74 ,2797 ,53 ,9 ,6556 
,19 ,3126 ,8 ,177 ,27 ,79 ,8 ,5150 ,27 
,38 ,5424 ,406 ,14090 ,7 ,22895 ,49 ,222 ,33 
,318 ,106 ,8 ,2268 ,165 ,9 ,12 ,15 ,4144 
,55 ,38 ,31537 ,7 ,133 ,93 ,30 ,215 ,760 
,9 ,29 ,68007 ,24192 ,1080 ,17310 ,26149 ,11 ,52 
,38 ,9 ,15 ,239 ,6 11 ,133 ,78 ,6248 
,10 ,10 ,174 ,145 ,45 ,350 ,4 ,120 ,230 
,62 ,25 ,21 ,108 ,478 ,49 ,93 ,47 | ,22993 
,6950 ,6 ,941 ,2342 ,14 ,39 ,12 ,482 ,115 
,160 ,67 ,8 ,181 ,115 ,62 ,157 ,27 ,8 
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87, 902, 2152, 3572, 5, 6, 619, 437, 7, 
6, 4616, 221, 819, 31, 323, 46, 7, 747, 
5, 198, 112, 55, 3591], dtype-int32) 


كما ترى آعلاه . OY GE‏ سجل الطول هذاكان أقل من 500 كلمة e‏ یتم وضع رقم 0 آمامه ليكون 
من المثير للدهشة أن عمل معالجة البيانات لدينا قد اكتمل ويمكننا الآن البدء في بناء النموذج: 
from keras.models import Sequential‏ 
from keras.layers import Embedding‏ 
from keras.layers import LSTM, Dense‏ 
embedding_vector_length = 32‏ 
model = Sequential()‏ 
model.add(Embedding(top. words, embedding vector length,‏ 
input length-zmax review length))‏ 
model .add(LSTM(100))‏ 
model.add(Dense(1, activation='sigmoid'))‏ 
model.compile(loss-'binary. crossentropy' ,optimizer-'adam',‏ 


metrics-['accuracy' ]) 
print(model.summary()) 


Model: "sequential. 2" 


Layer (type) Output Shape Param # 
“embedding (Embedding) ^ (None, 500, 32) 160000 
lstm (LSTM) (None, 100) 53200 
dense (Dense) (None, 1) 101 


Total params: 213,301 
Trainable params: 213,301 
Non-trainable params: 0 


كما ذكرنا سابقا . هناك طريقتان لتضمين الکلمات. في المثال السابق استخدمنا مضمن الكلمات 
المدرب مسبقا. في هذا المثال نستخدم طبقة .embedding‏ تتعلم طبقة Embedding‏ تضمين 
كلمة من مجموعة البيانات. 

حان الوقت الآن لتدريب النموذج: 


model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=5, 
batch_size=32) 


Epoch 1/5 

782/782 [==============================) - 82s 103ms/step - loss: 0.4681 - accuracy: 
0.7815 - val_loss: 0.3702 - val_accuracy: 0 

Epoch 2/5 

782/782 [==============================) - 79s 101ms/step - loss: 0.3340 - accuracy: 
0.8618 - val loss: 0.3984 - val accuracy: 0.8299 

Epoch 3/5 

782/782 [==============================) - 80s 102ms/step - loss: 0.2669 - accuracy: 
0.8954 - val_loss: 0.3272 - val_accuracy: 7 

Epoch 4/5 

782/782 [==============================) - 80s 102ms/step - loss: 0.2259 - accuracy: 
0.9117 - val_loss: 0.3122 - val_accuracy: 3 

Epoch 5/5 

782/782 [==============================) - 79s 101ms/step - loss: 0.1912 - accuracy: 
0.9270 - val loss: 0.3399 - val accuracy: 4 
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بعد الانتهاء من تدريب النموذج › حان الوقت لتقييم آداء النموذج: 


scores = model.evaluate(X_test, y_test, verbose=0) 
print("Accuracy: %.2f%%" % (scores[1]*100)) 


Accuracy: 86.04% 

كما یتضح. فقد تمكن النموذج من تحقيق Bo‏ تبلغ حوالي ۸86 ۰ وهو أمر ممتاز بالنظر إلى 

المشكلة الصعبة. ومع ذلك e‏ فإن هذا النموذج ليس أفضل نموذج ممکن كتابته. كتمرين» يمكنك 

رؤية النتائج من خلال تجربة معاملات فائقة مختلفة وبناء نموذج عالي الأداء. أيضًا . يمكنك 

رسم مخطط الخطأ والدقة للنماذج ومعرفة ما إذا كانت النماذج تؤدي إلى -overfitting‏ فيما 
يتعلق بالنموذج أعلاه ء ما رأيك في بالضبط الزائد overfitting‏ ؟ 


خلاصة الفصل 


تقضي الشبكات العصبية المتكررة على أوجه القصور في الشبكات العصبية أمامية التغذية. 
٭ شبکات RNN‏ البسيطة ليست قادرة على تعلم التبعيات طويلة المدى. 
٭ يمكن د 151۷ تكوين تبعيات طويلة المدى بسبب وجود خلية ذاكرة خاصة في هيكلها. 


اختبار 
كم عدد البوابات التي تمتلكها LSTM‏ وما هو دور كل منها؟ 


+ 
٠ج‎ 


المقدمة 

في هذا الفصلء نعتزم تقديم مجموعة من نماذج المولد Fly‏ على بعض مفاهيم نظرية اللعبة. 
السمة الرئيسية الخاصة بهم هي طريقة تدريب معادية (خصومة) تهدف إلى معرفة التمییز بين 
العينات الحقيقية والمزيفة من خلال مكون واحد. وفي الوقت نفسه. ينتج مكون آخر عينات 
أكثر فأكثر LS‏ مع عینات التدريب. باختصار نی هذه الشبکات. ينتج آحدهم. والآخر يدون 
الملاحظات. وبالتعاون التامء يحققون نتائج جيدة جدا. 


ماهو النموذج المولد؟ 
بشكل عام» هناك نوعان رئیسیان من النماذج في التعلم ای نموذج المولد ( generative‏ 
(model‏ ونموذج model) jsl‏ 6 هستست015). يحاول نموذج المميز ء كما يوحي اسمه e‏ 
فصل البيانات بين فثتین أو آکثر. بشكل عام ء تركز نماذج الممیز على التنبؤ بفتات البيانات Giy‏ 
لخصائصها. على العكس من ذلك. لا يحاول نموذج المولد تعيين سمات للفتات . ولكنه يولد 
سمات موجودة في فئة معينة. هناك طريقة سهلة للتمييز بين نموذج المولد ونموذج المميز: 

t‏ يركز نموذج المولد على نمذجة توزيع البيانات. 

٭ يهتم نموذج المميز بإيجاد حدود أو قواعد لفصل البيانات. 


يصف نموذج المولد -Livlasd3‏ مجموعه بيانات بنا على نموذج احتمالى. 


تعد نماذج المولد أداة قوية لفحص توزيع البيانات أو تقدير كثافة مجموعات البيانات. تتبع 
نماذج المولد التعلم غير الخاضع للإشراف الذي GUE GES‏ الأنماط أو المخالفات‌في 
البيانات التي يتم تحليلها. يساعد هذافي إنشاء بيانات جديدة تشبه إلى حد كبير مجموعة البيانات 
الأصلية. على وجه التحدید. الهدف من نماذج المولد هو معرفة التوزيع الفعلي للبیاناتنی 
مجموعة التدریب. لإنشاء نقاط بيانات جديدة مع Ue‏ التعدیلات. 

الغرض الرئيسي من جمیع آنواع نماذج المولد هو معرفة التوزیع الفعلي لبیانات مجموعة 
التدریب بحیث یمکن إنشاء نقاط بیانات جديدة مع التعدیلات. لکن لا يمكن للنموذج أن یتعلم 
التوزیع الدقیق لبیاناتنا. لذلك قمنا بنمذجة توزیع مشابه لتوزیع البیانات الحقيقية. للقيام بذلك 
نستخدم معرفة الشبكة العصبية للتعلم الدالي الذي یمکنه تقریب توزیع النموذج إلى التوزیع 
الفعلی. 
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نماذج المولد ومستقبل الذكاء الاصطناعي؟ 


هناك ثلاثة أسباب عامة تجعل من الممكن اعتبار نماذج المولد مفتاحًا لاطلاق شكل أكثر تعقیدا 
من الذكاء الاصطناعي يتجاوز ما يمكن أن تحققه نماذج المميز. 


(SU‏ من وجهة النظر النظرية وحدها . لا يجب أن نشعر بالرضا عن القدرة الفائقة على 
تصنيف البيانات فحسب . بل يجب CAT‏ السعي إلى فهم أكثر اکتمالاً لكيفية إنشاء 
البيانات في المقام الأول. مما لا شك فيه أن حل هذه المشكلة أصعب بكثير من الطرق 
المقارنة. ومع ذلك . كما سنرى . يمكن أيضًا استخدام العديد من نفس الأساليب التي 
أدت إلى تطوير النمذجة التمييزية (مثل التعلم العميق) بواسطة نماذج المولد. 

OE‏ من المرجح أن تكون النمذجة التوليدية أكثر أهمية وفعالية من أي شيء آخر في 
توجيه التطورات المستقبلية في مجالات أخرى من التعلم الآلي ء مثل التعلم المعزز 
«(Reinforcement learning)‏ على سبيل المثال » یمکننا استخدام التعلم المعزز 
لتدريب الروبوت على المشي في منطقة معينة. النهج العام هو بناء محاكاة حاسوبية من 
الأرض ثم إجراء العديد من التجارب التي يحاول فيها الوكيل استراتيجيات مختلفة. 
بمرور الوقت . يتعرف الوكيل على الاستراتيجيات الأكثر نجاحًا من غيرها وبالتالي 
یتحسن Loe‏ المشكلة الشائعة في هذا انتج هي آن فيزياء البيئة غالبا ما تکون معقدة 
للغاية ویجب حسابها في كل خطوة لاعادة المعلومات إلى الوکیل لیقرر خطوته التالية. 
ومع ذلك . إذا تمکن الوکیل من محاكاة بيئته من خلال نموذج توليدي . فلن یحتاج إلى 
تجربة الاستراتيجية في محاكاة الکمبیوتر أو في العالم الحقيقي . ولکن یمکنه التعلم في 
آخیرا . إذا آردنا G‏ أن نقول إننا بنینا آلة اکتسبت شکلاً من آشکال الذکاء یمکن مقارنته 
بالذکاء البشري » فیجب أن تکون النمذجة التوليدية بالتأ کید جزءًا من الحل. آحد أفضل 
الأمثلة على نموذج المولد في العالم الحقيقي هو الشخص الذي يقرأ هذا الکتاب. توقف 
لحظة لتفکر في dale‏ نموذج المولد المذهل الذي أنت ade‏ يمكنك أن تغمض عينيك 
وتتخیل شکل الفیل من کل زاوية ممکنة. يمكنك تخیل عدد من النهایات المختلفة 
والمقبولة لبرنامجك التلفزيوني المفضل i‏ ویمکنك Cash‏ التخطیط لاسبوعك والعمل فيه 


من خلال العمل في المستقبل في عقلك. تظهر نظرية علم الأعصاب الحالية أن فهمنا 
للواقع ليس نموذجًا مميرًا معقدا للغاية يعمل على مدخلاتنا الحسية لتوليد تنبؤات بما 
نشهده . بل إنه نموذج مثمر يتم تدريبه منذ الولادة لتوليد محاكاة لمحيطنا تتناسب تماما 


شبكة الخصومة التوليدية (GAN)‏ 


فكرفي كيفية التعلم. نت تحاول شین ما وتحصل على ردود الفعل. قمت بتعديل استراتيجيتك 
وحاول مرة آخری. قد تأخذ التعلیقات شکل النقد أو UNI‏ أو الکسب. قد يأتي من حکمك على 
مدی جودة آدائك. ومع ذلك غالبًا ما تکون التعلیقات الا کثر فائدة هي التعلیقات الواردة من 
شخص آخر لأنها ليست مجرد رقم أو شعور, ولکنها تقييم ذكي لمدی نجاحك‌ني ذلك. 

عندما یتم تدریب جهاز کمبیوتر على مهمة ماء عادة ما يقدم البشر ملاحظات‌ني شکل 
معاملات أو خوارزمیات. تکون هذه الملاحظات آسهل عندما تکون مهمة بسيطة مثل تعلم ضرب 
رقمین. يمكنك بسهولة إخبار الکمبیوتر بدقة كيف حدث خطأ. ومع ذلك مع مهمة أكثر تعقیدا, 
مثل إنشاء صورة قطة یصبح تقدیم الملاحظات آکثر صعوبة. هل الصورة ضبابیة هل تبدو آشبه 
بالكلب آم تبد و كشيء على الاطلاق؟ یمکن تنفیذ الإحصائيات المعقدة. لکن من الصعب تسجیل 
كل التفاصیل التي تجعل الصورة حقيقية. یمکن للمرء أن یقدرہ لن لدینا الکثیر من الخبرةفي 
تقییم المدخلات المرثية: LSI‏ بطيئون نسبيًا ویمکن أن تکون تقبیماتنا ذاتية للغاية. بدلاً من 
ذلك. یمکننا تدریب شبكة عصبية لتعلم مهمة التمییز بین الصور الحقيقية والمنتجة. بعد ذلك 
یمکن اعطاء مولد الصور (الشبكة العصبیة) والممیز الفرصة للتعلم من بعضهما البعض 
والتحسین بمرور الوقت. الشبکتان اللتان تلعبان هذه اللعبة هما الخصومة التوليدية. 

شبکات الخصومة الئتونئيدıة)Networks (Generative Adversarial‏ « أو اختصارًا 
«GAN‏ هي 23 من تقنيات التعلم الالي التي تتكون من نموذجين مدرٌّبیننی وقت واحد: مولد 
مُدرّب على إنشاء بيانات مزيفة ومميز مُدرّب. للتمییز بين البيانات المزيفة والعينات الحقيقية. 
تشير كلمة "توليد" إلى الغرض العام للنموذج: إنشاء بيانات جديدة. تعتمد البيانات التي تتعلم 
GAN‏ على توليدها على اختيار مجموعة التدريب. على سبيل المثال إذا أردنا أن تجمع GAN‏ 
بين صور تشبه دافنشي» LID‏ نستخدم قاعدة بيانات Da Vinci Art‏ التدريبية. 

يشير مصطلح الخصومة (adversarial)‏ إلى منافسة ديناميكية ومرحة بين النموذجين اللذين 
یشکلان إطار عمل GAN‏ المولد والمميز. الهدف من المولد هو إنشاء عينات لا يمكن تمييزها 
عن البيانات الفعليةفي مجموعة التدريب.في مثالناء هذا يعني إنتاج لوحات تشبه لوحات دافنشي 
Ls‏ الغرض من المميز هو التمييز بين العينات المزيفة التي ينتجها المولد من العينات الحقيقية 
التي تم الحصول عليها من مجموعة بيانات التدريب.في مثالناء تلعب المميز دور خبير فني يقيم 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


أصالة اللوحات التي يعتقد أنها تنتمي إلى دافنشي. تحاول الشبكتان باستمرار خداع بعضهما 
البعض: فكلما كان المولد أفضل نی إنشاء بيانات واقعية» يجب أن يكون الفارق أفضلفي التمییز 
بين العينات الحقيقية والعينات المزيفة. 

أخيرًاء تشير كلمة الشبكات العصبية إلى فئة نماذج التعلم الآلي المستخدمة بشکل شائع لتمثيل 
المولد والمميز. اعتمادًا على مدى تعقيد تنفيذ GAN‏ يمكن أن تتراوح من الشبكات العصبية 
امامية التغذية البسيطة إلى الشبكات العصبية الالتفافية أو حتى الأنواع الأكثر تعقيداً. 

الرياضيات الأساسية لشبكات GAN‏ معقدة. لحسن الحظ يمكن للعديد من المقارنات‌ني 
العالم الحقيقي أن تجعل فهم شبكات GAN‏ أسهل.في المثال السابق. تحدثنا عن مزور فني 
(مولد) يحاول خداع خبير فني (مميّز). كلما كانت اللوحات المزيفة أكثر إقناعًاء كان على الفنان 
أن يكون أفضلفي التعرف على أصالتها. والعکس صحيح أيضًا: فکلما كان الخبير الفني أفضل في 
التعرف على أصالة لوحة معينة. كان يجب على المزور أن يعمل بشكل أفضل لتجنب الوقوعفي 
الفخ. 

بتعبير Gol‏ الهدف من المولد هو إنتاج عينات توضح خصائص مجموعة بيانات التدريب 
بحيث لا يمكن تمییز العينات التي ينتجها عن بيانات التدريب. يمكن اعتبار المولد كنموذج 
عكسي للكشف عن الکائن. تتعلم خوارزميات التعرف على الكائنات الأنماط الموجودةني الصور 
للتعرف على محتوى الصورة. بدلاً من التعرف على الأنماطء يتعلم المولد إنشاءها ساسا من 
نقطة الصفر.في الواقع. WE‏ ما لا يكون إدخال المولد أكثر من متجه رقم عشوائي. یتعلم المولد 
من خلال التعليقات التي يتلقاها من المميز. الغرض من المميز هو تحديد ما إذا كان عينة معينة 
tnt) al‏ من مجموعة بیانات التدریب) آم مزيفة (تم إنشاؤها بواسطة المولد). وفقا لذلك. 
في کل مرة یتم فيها خداع الممیز وتصنیف صورة مزيفة على Ul‏ حقيقية. یعرف المولد أنه قام 
بعمل جید. على العکس من ذلكءفی كل مرة یرفض فيها الممیز بشکل صحیح الصورة التي 
ینتجها المولد على آنها مزيفةء یتلقی المولد ملاحظات تحتاج إلى التحسین. كما یستمر الممیز 
في التحسن. مثل أي مصنف آخر. یتعلم من الفرق بين تنبژاته والتسمیات الحقيقية (الحقيقية 
أو المزيفة). وبالتالي. مع تحسن المولدفي إنتاج بیانات حقيقية. یتحسن الممیزفی التمییز بين 
البيانات المزيفة والبيانات الحقیقیة وتستمر كلتا الشبكتينفي التطورفي وقت واحد. 


التدريب على الخصومة 


في «GAN‏ يتم تدريب المولد والمميز بطريقة متضاربة؛ أي أنهما يتنافسان مع بعضهما البعض 
في إطار المجموع الصفري (zero-sum)‏ لإنتاج بيانات مشابهة لتوزيع البيانات الحقيقية. 
الغرض من المولدفي GAN‏ هو إنتاج عينات يبدو أنها من توزيع بيانات حقیقیة حتى لو كانت 
مزيفةء والغرض من المميز هو اكتشاف ما إذا كانت العينات مزيفة أم أصلية. 

من وجهة نظر التحسین. فان الهدف من التعليم المولد هو زيادة أخطاء المميز. بمعنى آخر 
كلما زاد عدد الأخطاء التي يرتكبها المميزء كان المولد أفضل. الغرض من المميز هو تقلیل 
الخطأ.في كل نکرار. تتحرك UIS‏ الشبكتين نحو أهدافهما باستخدام تناوب تنازلي. ومن المثير 
للاهتمام أن كل شبكة تحاول هزيمة شبكة أخرى. يحاول المولد خداع المميزء بينما يحاول 
المميز ألا ينخدع. آخیرا. يمكن لبيانات الإخراج (مثل الصور والصوت والفيديو والسلاسل 
الزمنية) من المولد أن تخدع أكثر المميزات تعقیدا. 

من الناحية العمليق يأخذ المولد عينات عشوائية من توزيع محدد مسبقا مع التوزیع کمدخلات 
ویولد البيانات التي يبدو أنها تأتي من التوزيع المستهدف. 
يتم تنفيذ الخطوات التالية بواسطة :GAN‏ 


1. تأخذ شبكة المولد عینات عشوائية من التوزيع الاحتمالي الطبيعي وتولد الصور. 
ثم يتم تمرير هذه الصور التي تم إنشاؤها إلى شبكة المميز. 
تلتقط شبكة المميز WS‏ من الصور التي تم إنشاؤها والصور المأخوذة من مجموعة 
البيانات الفعلية. 
4. يعطي المميز الاحتمالات عند الاخراج. 
يتم حساب الخطأ (دالة التكلفة) للمولد Fly‏ على الانتروبیا المتقاطعة للصور المزيفة 
التي يعتبرها المّمیز صالحًا. 
6 يتم حساب الخطأ (دالة التكلفة) للمميز بناءً على الانتروبيا المتقاطعة للصور المزيفة 
التي تعتبر مزيفة ء بالإضافة إلى الانتروبیا المتقاطعة للصور الحقيقية التي تعتبر صالحة. 
7 في كل فترة . یٹم تحسین UIS‏ الشبکتین لتقليل اخطائهما. 
8. أخيرًاء ينتج المولد المدرب جیدا الصور کمخرج نهائي يحاكي صور الادخال الفعلية. 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


كمثال لتوليد do po‏ يمكن عرض نموذج GGAN‏ الشكل التالي: 


شبكة المولد 


صورة مزيفة 


شکل 1-6. الهيكل العام لشبكة خصومة توليدية. 


GAN تدريب‎ 


هدفنا الرئيسي هو إنشاء مولدات صور حقيقية (بیانات). وإطار عمل GAN‏ هو ibl‏ لهذا 
الغرض. قبل الخوض في مزيد من التفاصیل. دعنا نقدم بعض الرموز: 
* نشیر إلى المولد بواسطة )05 ,2) 6 ۰ حيث Og‏ هي آوزان الشبكة و 2 هو المتجه الكامن 
(latent vector)‏ الذي يعمل كمدخل للمولد. فكر في الأمر كبذرة عشوائية ) random‏ 
0 لبدء عملية انتاج الصور. يحتوي 2 على توزيع احتمالي ل «pz (Z)‏ والذي یکون 
Gil pte dale‏ عاديا (random normal)‏ أو منتظمًا عشوائیّا -(random uniform)‏ ينتج 
المولد عينات وهمية x‏ عن طريق توزيع الاحتمال po (x)‏ يمكنك التفكير في Dg (x)‏ 
كتوزيع احتمالي لبيانات حقيقية فيما يتعلق بالمولد. 
* نشير إلى المميز بواسطة D(x, Og)‏ حيث أن Og‏ هو وزن الشبكة. يأخذ البيانات الحقيقية 
كمدخلات عن طريق توزيع x Daata (X)‏ أو العینات المولدة xo pg (X)‏ المميز هو 


نف ثنائي ينتج قيمة 1 أو 0 . اعتمادًا على ما إذاكانت صورة الإدخال حقيقية (مخرج 
الشبكة 1) أو تم إنشاؤها (مخرج الشبكة 0).. 
" أثناء التدریب ‏ نشير إلى دوال الخطأ للمميز والمولد بواسطة JO)‏ و J‏ على التوالى. 
يختلف تدریب GAN‏ عن تدريب شبكة عصبية عميقة نموذجية OY‏ لدينا شبكتين. يمكننا 
اعتبارها لعبة مجموع CZero-sum game) gs pave‏ كاملة بين لاعبين (مولدين ومميزين): 


x‏ تسلسلي :(Sequential)‏ هذا يعني أن اللاعبين يتبادلون الأدوار > على غرار الشطرنج. 
في البداية . يحاول المميز تقليل JO)‏ لکن يمكنه فقط القيام بذلك عن طريق ضبط 
الأوزان Oa‏ يحاول المولد بعد ذلك تقليل JO‏ لکن يمكنه فقط ضبط الأوزان » و6. 
تتكرر هذه العملية عدة مرات. 

کا المجموع الصفري :(Zero-sum)‏ هذا يعني أن ربح أو خسارة أحد اللاعبين متوازنة 
تمامًا مع ربح أو خسارة اللاعب الآخر. وهذا يعني أن الخسارة الإجمالية للمولد والمميز 
هي دائمًا 0: 

JO = -JP 

3. ميني ماكس (minimax)‏ هذا يعني أن استراتيجية اللاعب الأول (المولد) هي تقليل 
الدرجة القصوى للخصم (المميز). عندما نقوم بتدريب الممیز ء فإنها تعمل على تحسين 
اكتشاف العینات الحقيقية والمزيفة (تقليل JP)‏ بعد ذلك. عندما نقوم بتدريب المولد. 
فإنه يحاول رفع مستوى المميز المحسن Édo‏ (نقوم بتصغير JO‏ وهو ما يعادل بتكبير 
J‏ الشبكتان في منافسة مستمرة. نعرض لعبة minimax‏ مع ما يلي أن V‏ دالة تكلفة: 

mingmaxpV(G, D) 
بالحد الأدنى المحلي.‎ JO و‎ J لنفترض أنه بعد خطوات تدريب قليلة » سيكون کل من‎ 
يحدث توازن ناش‎ . (Nash equilibrium) ثم يسمى حل لعبة الحد الادنی بتوازن ناش‎ 
عندما لا يغير أحد الممثلين عمله . بغض النظر عما يفعله الممثل الآخر. يحدث توازن‎ 
DL عندما يصبح المولد جيدًا جدا بحيث لم يعد الفارق‎ GAN ناش في إطار عمل‎ 
على التمييز بين العينات الفعلية والمنتجة.‎ 


تدريب المميز 
إن المميز عبارة عن مصنف شبكة esae‏ ويمكننا تعليمه بالطريقة المعتادة» باستخدام التدرج 


العينات الفعلية والمولدة. دعونا نری كيف يمكن دمجهاني عملية التدریب: 


1. اعتمادًا على نمط الادخال (حقیقی أو مزيف) . لدينا مساران: 
m‏ حدد العينة من البيانات الفعلية X~Daatg‏ واستخدمها لإنشاء Dy‏ 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 

* إنتاج عينة وهمية .x~Dg‏ هنا . يعمل المولد والمميز كشبكة واحدة. نبداً بمتجه 
عشوائي 2. والذي نستخدمه لإنشاء العينة المولدة Gy‏ ثم نستخدمها كمدخلات 
للمميز لتولید الناتج النهائي ((2) 6) (1. 
2. حساب دالة الخطأ التى تعكس ازدواجية البيانات التدريبية. 
3 يتم إعادة نشر تدرج الخطأ وتحديث الأوزان. على الرغم من أن الشبكتين تعملان es‏ 

إلا أن أوزان المولد Og‏ سيتم قفلها . وسنقوم فقط بتحديث آوزان المميز Oa‏ هذا 
لفهم خطأ التمیز دعونا نتذكر معادلة خطأ الانتروبيا المتقاطعة: 


CE(p,q) = — X pil) log(qi GO) 


حيث qu(x)‏ هو احتمال تقدير الناتج الذي ينتمي إلى الفئة 1 (من فئة (n‏ و p(x)‏ هو الاحتمال 
الحقیقی. للتبسیط. افترض أننا طبقنا المعادلة على عينة التدريب.فى حالة التصنيف الثنائی يمك 

: بسیط. افترض اننا طب على عينة التدريب.في : ae‏ 
تبسيط هذه الصيغة على النحو التالى: 


CE(p,q) = —(p(x) log q(x) + )1 - p(x))log(1 — q(x)) 
IM يمكننا تمديد المعادلة إلى مجموعة جزئية من عينات‎ 


1 m 
Dq)—-—— P\ xj) 10g q(x; ) + (1 ¬ p(xj))1og(1 ¬ 4) 
CE(p,q) = —— ( (p(x) log a(xj) + à - p@%)) log — a(;)) 

j=i 
هذا دعونا نحدد خطأ المميز:‎ JS مع العلم‎ 


1 1 
J® = - ق)وملے مہم"‎ )0( - 5E, log (1 - 2)6)2((( 


الخاصة من شبكات GAN‏ 


تدريب المولد 


سنقوم بتدريب المولد على خداع المميز من خلال تحسينه. للقيام بذلك: نحتاج إلى WS‏ 
الشبکتین. على غرار الطريقة التي نعلم بها الممیز بأمثلة مزيفة: 


1. نبدأ بمتجه کامن عشوائي 2 ونغذيه من خلال مولد ومميز لانتاج الناتج -D(G(z))‏ 


2 دالة الخطأ هي نفس خطأ المميز. ومع ذلك . فإن هدفنا هنا هو التكبير وليس التقليل. 
لأننا نريد خداع المميز. 
3. في مرحلة التراجع . يتم قفل أوزان المميز Oa‏ ويمكننا فقط ضبط Og‏ يتيح لنا ذلك 
زيادة خطأ المميز إلى الحد الأقصى من خلال تحسين المولد بدلاً من جعل أداة المميز 
ddl‏ 
في هذه المرحلةء نستخدم البيانات التي تم إنشاؤها فقط. سيكون جزء دالة الخطأ الذي يتعامل 
مع البيانات الحقيقية lo‏ 0. لذلك یمکننا تبسيطها على النحو التالي: 


J® = E, log (1 - D(G(z))) 


فى البداية. عندما يمكن للمميز التمييز بسهولة بين العينات الحقيقية والمزيفة 0 = «D(G(z))‏ 
سيكون التدرج قريبًا من الصفر. هذا يؤدي إلى تعلم طفيف للأوزان» وهو ما يعرف بالتدرج 
المتناقص (diminished gradient)‏ . یمکننا حل هذه المشكلة باستخدام دالة خسارة مختلفة: 


J = —E, log (D(G(z))) 
وفي نفس الوقت يكون التدرج كبيرًا‎ D(G(z)) & 1 لا یزال هذه الخطأ منخفض عندما یکون‎ 
(عندما يكون أداء المولد ضعیفا). مع هذا الخطأ. لم تعد اللعبة مجموعة صفرية؛ ولكن لن يكون‎ 
.GAN لها أي تأثير عملي على إطار عمل‎ 
تدريب الاثنين معا (المولد والممیز)‎ 


من خلال معرفتنا الجديدة یمکننا تحديد هدف الحد الأدنى بشکل كامل: 
1 1 : 
mingmaxpV (G, D) = 2 Ex~paata log(D(x)) + 3Ez log (1 — D(Gz)))‏ 


باختصار يحاول المولد تقليل الهدف. بينما يحاول المميز تكبيره. لاحظ أنه على الرغم من أن 
المميز يجب أن يقلل من خسارته. فان الهدف هو تقليل خطأ المميز السلبي. لذلك يجب على 
المميز تكبيره. 

توليد صور جديدة ۲ ۱۷۱۱۱5 با GAN‏ 


في هذا القسم نريد تنفيذ شبكة الخصومة التوليدية باستخدام Keras‏ و Î .Tensorflow‏ 
نقوم بإدخال الاكواد المطلوية: 


from tensorflow.keras.datasets import mnist 

from tensorflow.keras.layers import Input, Dense, Reshape, Flatten, Dropout 

from tensorflow.keras.layers import BatchNormalization, Activation, ZeroPadding2D 
from tensorflow.keras.layers import LeakyReLU 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


from tensorflow.keras.layers import UpSampling2D, Conv2D 
from tensorflow.keras.models import Sequential, Model 
from tensorflow.keras.optimizers import Adam 

from tensorflow.keras import initializers 

import matplotlib.pyplot as plt 

import sys 

import numpy as np 

import tqdm 


(X_train, _), (_, _) = mnist.load_data() 
X_train = (X_train.astype(np.float32) - 127.5)/127.5 


كما لاحظت . فإننا لا نعيد أي علامات أو مجموعات بيانات اختبار. نحن نستخدم مجموعة 
بيانات التدریب فقط. العلامات غير مطلوبة ء حيث أن العلامات الوحيدة التي سنستخدمها هي 
0 للعلامات المزيفة و1 للعلامات الحقيقية. هذه صور حقيقية . لذلك تم تخصيص علامة 1 
في المميز qeu‏ 

سنستخدم بيرسيبترون متعدد الطبقات ونعطيه صورة كمتجه مسطح بحجم ۰784 لذلك 
سنقوم بتحويل بيانات التدريب: 

X_train = X_train.reshape(60000, 784) 

الآن علينا أن نصنع مولدا ومميرًا. الغرض من المولد هو تلقي مدخلات مشوهة noisy data‏ 
وإنتاج صورة مشابهة لمجموعة بيانات التدريب. يتم تحديد حجم إدخال الضوضاء بواسطة متغير 
.randomDim‏ يمكنك تهینته إلى أي قيمة. عادة ما يتم ضبطه على 100. للتنفيذ . اختبرنا قيمة 
0. يدخل هذا الإدخال طبقة كثيفة Dense‏ من 256 خلية عصبية مع تنشيط -LeakyReLU‏ 
في الخطوة التالیة » نضيف طبقة أخرى متصلة GLS‏ بها 512 خلية عصبية مخفية . تليها الطبقة 
الثالثة المخفية التي تحتوي على 1024 خلية عصبية . وأخيرًا طبقة الاخراج مع 784 خلية 
عصبية. يمكنك تغيير عدد الخلايا العصبية في الطبقات المخفية ورؤية كيف تتغير الدالة. ومع 
ذلك. يجب أن يتطابق عدد الخلايا العصبية لكل وحدة إخراج مع عدد البكسل في صور التدريب. 
المولد على النحو التالي: 


randomDim = 10 

generator = Sequential () 
generator.add(Dense(256, input_dim=randomDim)) 
generator.add(LeakyReLU(Q.2)) 
generator.add(Dense(512)) 

generator .add(LeakyReLU(0.2)) 

generator .add(Dense(1024)) 

generator .add(LeakyReLU(0.2)) 
generator.add(Dense(784, activation='tanh')) 


وبصورة مماثلة ء نقوم بإنشاء المميز. لاحظ أن المميز تأخذ صورًا من مجموعة التدريب أو الصور 
التي ينتجها المولد . لذا فإن حجم الإدخال هو 784. ومع ذلك . فإن الناتج يحدد الى بت واحد 


ويشير 0 إلى صورة مزيفة (تم إنشاؤها بواسطة المولد) ويشير 1 إلى أن الصورة من مجموعة 
بيانات تدريبية: 


discriminator = Sequential () 

discriminator. add(Dense(1024, input dim-784, 
kernel initializer-initializers.RandomNormal(stddev-0.02))) 
discriminator. add(LeakyReLU(0.2)) 

discriminator. add(Dropout(0. 3)) 

discriminator. add(Dense(512)) 

discriminator. add(LeakyReLU(0.2)) 

discriminator. add(Dropout(0. 3)) 

discriminator. add(Dense(256)) 

discriminator. add(LeakyReLU(0.2)) 

discriminator. add(Dropout(0. 3)) 

discriminator. add(Dense(1, activation-'sigmoid')) 


ثم نقوم بدمج المولد والمميز لتشکیل GAN‏ في GAN‏ ۰ من خلال تعيين الوسيطة trainable‏ 
على False‏ ۰ نتأكد من إصلاح وزان المميز: 


# Combined network 

discriminator.trainable = False 

ganInput = Input(shape=(randomDim, )) 

x = generator(ganInput ) 

ganOutput = discriminator(x) 

gan = Model(inputs-ganInput, outputs-ganOutput) 


الحيلة في تدريب الاثنين هي أولاً تدريب المميز بشكل منفصل. نحن نستخدم اخطاء ثنائية عبر 
الانتروبیا للمميز. بعد ذلك > نقوم بتجميد freeze‏ أوزان المميز وتدريب GAN‏ الهجين. هذا 
يؤدي إلى تدريب المولد: 


discriminator.compile(loss='binary_crossentropy', optimizer=adam) 
gan.compile(loss='binary_crossentropy', optimizer=adam) 


لنبدأ OW‏ البرنامج التدريبي. لكل دورة i‏ نأخذ أولاً عينة من noisy data‏ « ونمررها إلى المولد c‏ 
وينتج المولد صورة مزيفة. نقوم بدمج الصور المزيفة وصور التدريب الحقيقية في فئة واحدة مع 
العلامات الخاصة بنا ونستخدمها لتدريب المميز فى الفئة المحددة: 


dLosses = [] 
glosses = [] 
def train(epochs-1, batchSize=128): 
batchCount = int(X train.shape[0] / batchSize) 
print ('Epochs:', epochs) 
print ('Batch size:', batchSize) 
print ('Batches per epoch:', batchCount) 


for e in range(1, epochs+1): 
print ('-'*15, 'Epoch %d' % e, '-'x15) 
for _ in range(batchCount): 
# Get a random set of input noise and images 
noise = np.random.normal(0, 1, size=[batchSize, randomDim]) 
imageBatch - X train[np.random.randint(0, X train.shape[0], 
size-batchSize)] 


# Generate fake MNIST images 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


generatedImages = generator.predict(noise) 
# print np.shape(imageBatch), np.shape(generatedImages) 
X = np.concatenate([imageBatch, generatedImages]) 


# Labels for generated and real data 
yDis = np.zeros(2*batchSize) 

# One-sided label smoothing 
yDis[:batchSize] = 0.9 


# Train discriminator 
discriminator.trainable = True 
dloss = discriminator.train on batch(X, yDis) 


الآن في نفس حلقة for‏ « نقوم بتدريب المولد. نريد أن يتم التعرف على الصور التي ينتجها المولد 
بواسطة المميز على أنها حقيقية . لذلك نستخدم متجها عشواتيًا (ضوضاء) كمدخل للمولد. 
يقوم بإنشاء صورة مزيفة ثم يقوم بتدریب GAN‏ بطريقة تجعل مميز الصورة يفهم الشيء الحقيقي 
cou»‏ 1 


# Train generator 

noise - np.random.normal(0, 1, size-[batchSize, randomDim]) 
yGen - np.ones(batchSize) 

discriminator.trainable - False 

gloss - gan.train on batch(noise, yGen) 


إذاكنت ترغب فى ذلك . يمكنك حفظ اخطاء المولد والمميز وكذلك الصور الناتجة. بعد ذلك. 
نقوم بتخزين الخطأ لكل دورة وتوليد صور بعد كل 20 دورة: 


# Store loss of most recent batch from this epoch 
dLosses.append(dloss) 
gLosses.append(gloss) 


if e == 1 or e % 20 == 0: 
saveGeneratedImages(e) 


لرسم الاخطاء والصور التي تم إنشاؤها للأرقام المكتوبة بخط اليد. نحدد دالتين مساعدتين « 
.saveGeneratedImages 5 plotLoss‏ اكوا ادهم على النحو التالي: 


# Plot the loss from each batch 

def plotLoss(epoch): 
plt.figure(figsize=(10, 8)) 
plt.plot(dLosses, label='Discriminitive loss') 
plt.plot(gLosses, label='Generative loss') 
plt.xlabel('Epoch') 
plt.ylabel('Loss') 
plt.legend() 
plt.savefig('images/gan. loss. epoch ZXd.png' % epoch) 


# Create a wall of generated MNIST images 
def saveGeneratedImages(epoch, examples-100, dim-(10, 10), figsize-(10, 
10)): 

noise - np.random.normal(0, 1, size-[examples, randomDim]) 
generatedImages - generator.predict(noise) 
generatedImages - generatedImages.reshape(examples, 28, 28) 
plt.figure(figsize-figsize) 
for i in range(generatedImages. shape[0]): 


plt.subplot(dim[0], dim[1], i+1) 
plt.imshow(generatedImages[i], interpolation-'nearest', 
cmap='gray_r') 
plt.axis('off') 
plt.tight layout() 
plt.savefig('images/gan generated image. epoch Xd.png' % epoch) 


الآن دعونا نحصل على كل الكود معا: 


from tensorflow.keras.datasets import ۲ 

from tensorflow.keras.layers import Input, Dense, Reshape, Flatten, 
Dropout 

from tensorflow.keras.layers import BatchNormalization, Activation, 
ZeroPadding2D 

from tensorflow.keras.layers import LeakyReLU 

from tensorflow.keras.layers import UpSampling2D, Conv2D 

from tensorflow.keras.models import Sequential, Model 

from tensorflow.keras.optimizers import Adam 

from tensorflow.keras import initializers 

import matplotlib.pyplot as plt 

import sys 

import numpy as np 

import tqdm 

randomDim = 10 


# Load MNIST data 

(X_train, _), C, _) = mnist.load_data() 

X_train = (X_train.astype(np.float32) - 127.5)/127.5 
X_train = X_train.reshape(60000, 784) 


generator = Sequential () 

generator.add(Dense(256, input_dim=randomDim)) #, 

kernel initializer-initializers.RandomNormal(stddev-0.02))) 
generator.add(LeakyReLU(@. 2)) 

generator.add(Dense(512) ) 

generator .add(LeakyReLU(@.2)) 

generator.add(Dense(1024)) 

generator.add(LeakyReLU(@.2)) 

generator.add(Dense(784, activation='tanh' )) 

adam = Adam(learning_rate=0.0002, beta_1=0.5) 


discriminator = Sequential() 

discriminator.add(Dense(1024, input_dim=784, 

kernel initializer-initializers.RandomNormal(stddev-0.02))) 
discriminator. add(LeakyReLU(0.2)) 
discriminator.add(Dropout(0.3)) 
discriminator.add(Dense(512)) 

discriminator. add(LeakyReLU(0.2)) 
discriminator.add(Dropout(0.3)) 
discriminator.add(Dense(256)) 

discriminator. add(LeakyReLU(0.2)) 
discriminator.add(Dropout(0.3)) 

discriminator.add(Dense(1, activation='sigmoid')) 
discriminator.compile(loss='binary_crossentropy', optimizer-adam) 
# Combined network 

discriminator.trainable = False 

ganInput = Input(shape=(randomDim, )) 

x = generator(ganInput) 


التعلم العمیق: من الأساسيات حتى بناء شبكة عصبية عميقة بلغة البايثون 


ganOutput = discriminator(x) 
gan = Model(inputs-ganInput, outputs=ganOutput ) 
gan.compile(loss='binary_crossentropy', optimizer=adam) 
dLosses = [] 
glosses = [] 
# Plot the loss from each batch 
def plotLoss(epoch): 
plt.figure(figsize=(10, 8)) 
plt.plot(dLosses, label='Discriminitive loss') 
plt.plot(gLosses, label='Generative loss') 
plt.xlabel('Epoch') 
plt.ylabel('Loss') 
plt.legend() 
plt.savefig('images/gan_loss_epoch_%d.png' % epoch) 
# Create a wall of generated MNIST images 
def saveGeneratedImages(epoch, examples=100, dim=(10, 10), 
figsize=(10, 10)): 
noise = np.random.normal(0, 1, size-[examples, randomDim]) 
generatedImages - generator.predict(noise) 
generatedImages - generatedImages.reshape(examples, 28, 28) 
plt.figure(figsize-figsize) 
for i in range(generatedImages.shape[0]): 
plt.subplot(dim[0], dim[1], i+1) 
plt.imshow(generatedImages[i], interpolation-'nearest', 
cmap='gray_r') 
plt.axis('off') 
plt.tight layout() 
plt.savefig('images/gan generated image epoch *d.png' % epoch) 
def train(epochs-1, batchSize=128): 
batchCount = int(X train.shape[0] / batchSize) 
print ('Epochs:', epochs) 
print ('Batch size:', batchSize) 
print ('Batches per epoch:', batchCount) 


for e in range(1, epochs+1): 
print ('-'*15, 'Epoch Xd' % e, '-'*x15) 
for _ in range(batchCount): 
it Get a random set of input noise and images 
noise - np.random.normal(0, 1, size-[batchSize, 
randomDim]) 
imageBatch = X_train[np. random. randint(Q, 
X train.shape[0], size-batchSize)] 


# Generate fake MNIST images 

generatedImages - generator.predict(noise) 

# print np.shape(imageBatch), np.shape(generatedImages) 
X = np.concatenate([imageBatch, generatedImages ]) 


# Labels for generated and real data 
yDis = np.zeros(2*batchSize) 

# One-sided label smoothing 
yDis[:batchSize] = 0.9 


# Train discriminator 
discriminator.trainable = True 
dloss = discriminator.train_on_batch(X, yDis) 


# Train generator 

noise = np.random.normal(0, 1, size=[batchSize, 
randomDim]) 

yGen = np.ones(batchSize) 

discriminator.trainable = False 

gloss = gan.train_on_batch(noise, yGen) 


# Store loss of most recent batch from this epoch 
dLosses. append(dloss) 
gLosses.append(gloss) 


if e == 1 or e % 20 == 
saveGeneratedImages(e) 


# Plot losses from every epoch 
plotLoss(e) 


يمكننا الآن تدريب :GAN‏ 


train(200, 128) 


Epochs: 200 
Batch size: 128 
Batches per epoch: 468 


في الشكل أدناه ء يمكنك رؤية الرسم البياني لخطأ المولد والمميز ل GAN‏ الذي يتم تدريبه: 
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الأرقام المكتوبة بخط اليد التي أنتجتها GAN‏ لدينا في دورات مختلفة هي كما يلي: 
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كما ترون من الأرقام السابقة ء كلما زاد عدد الدورات التدريبية ۰ أصبحت أرقام خط اليد التي 


تنتجها GAN‏ حقيقية أكثر فأكثر. 


التحديات المتعلقة بتدريب شبكات الخصومة التوليدية 


هناك العديد من التحديات عند العمل مع GAN‏ قد يكون تدريب شبكة عصبية واحدة أمرًا صعبًا 


نظرًا للعدد الكبير من الخيارات المتضمنة: معمارية الشبكة ودوال التنشيط وخوارزمية التحسين 


ومعدل التعلم ومعدل الحذف العشوائی. تضاعف شبكات الخصومة التوليدية کل هذه الخيارات 


وتضیف تعقیدات جديدة. قد شی کل من المولد والممیز التکتیکات الى استخدمومانی 
تدریبهم. یمکن أن يؤدي ذلك إلى وقوع شبكتينفي داثرة من حلول الاستقرار التي لا تتحسن 


بمرور الوقت. قد تتجاوز إحدى الشبکات الأخرى حتی لا یتعلم أي منهما من الأخرى. أو قد لا 


يكتشف المولد الكثير من مساحة الحل الممكنة وسيستخدمها فقط لإيجاد حلول واقعية. تعرف 
هذه الحالة باسم وضع الانهيار .(mode collapse)‏ 
يحدث وضع الانهيار عندما يتعلم المولد مجموعة فرعية صغيرة فقط من الحالات الحقيقية 
المحتملة. على سبيل المثال. إذا كان الأمر يتعلق بإنتاج صور للقطط. فيمكن للمولد أن يتعلم 
فقط إنتاج صور للقطط السوداء ذات الشعر القصير. يفقد المولد جميع الحالات الآخرى» بمافی 
ذلك القطط ذات الألوان الأخرى. 
تم اقتراح العديد من الاستراتيجيات لمعالجة هذه المشکلة. بمافي ذلك تسوية الدفعات 
وإضافة العلامات إلى البيانات التدريبية والمزيد. تؤدي إضافة العلامات إلى البیانات: أي 
تقسيمها إلى فثات. إلى تحسين أداء شبكات Gih GAN‏ تقريبًا. بدلاً من تعلم إنشاء صور 
للحيوانات الأليفة بشكل عام» يجب أن يكون من الأسهل إنتاج o eo‏ على سبيل JEI‏ القطط 
والكلاب والطيور. 
خلاصة الفصل 
٭ بشكل cele‏ هناك نوعان رئيسيان من النماذج في التعلم الآلي: نموذج المولد ونموذج 
المميز. 
٭ تركز نماذج المميز على التنبؤ obi‏ البيانات Gi y‏ لخصائصها. 
* لا یحاول نموذج المولد تعيين سمات للفئات c‏ ولكنه يولد سمات موجودة في فثة معينة. 
* تتبع نماذج المولد التعلم غير الخاضع للإشراف الذي يكتشف GUE‏ الأنماط أو المخالفات 
في البيانات التي يتم تحليلها. 
* الغرض الرئيسي من جميع أنواع نماذج المولد هو معرفة التوزيع الفعلي لمجموعة البيانات 
لمجموعة التدريب. 


1. من منظور الامثليةء ما هو الهدف التدريبي من المولد والمميز؟ 
2 کیف یتم تدريب المميز؟ 

3 ما هی مدخلات المولد؟ 

4 ماهو وضع الانهیار؟ 
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